UER-py icon indicating copy to clipboard operation
UER-py copied to clipboard

请问wwm不适用于生成mlm+nsp格式的数据吗?

Open dr-GitHub-account opened this issue 2 years ago • 0 comments

运行process.py生成数据时,--data_processor默认是'bert',这样生成的是mlm+nsp的数据。我在设置--whole_word_masking时,发现由于mask.py中的create_index函数没有删除src前后句子之间的分隔符[SEP],该函数返回的tokens_index, src并不能准确反映整词掩码,主要原因就是中间的[SEP]被分为了'[', 'sep', ']'。前来确认一下,在设置wwm接口的时候,是不是没有考虑生成mlm+nsp格式的数据,只能用于--data_processor设置为'mlm'的情况?

dr-GitHub-account avatar May 07 '23 15:05 dr-GitHub-account