OpinioNet icon indicating copy to clipboard operation
OpinioNet copied to clipboard

About Whole Word Masking

Open sunny0315 opened this issue 4 years ago • 0 comments

dataset.py中的batchify似乎不是绝对的Whole Word Masking吧?首先是选择分词结果中的15%的词作为mask对象,然后对于选中的词的每个字概率性选择替换、保留或mask,所以也有概率一个词的部分被mask,部分被替换或保留吧,源代码如下图,不知是不是我的理解有误 image

结果如下 image

sunny0315 avatar Sep 10 '20 11:09 sunny0315