OpinioNet issues

dataset.py中的数据问题

您好请问 laptop_corpus1 = CorpusDataset('../data/TEST/Test_reviews.csv', tokenizer) laptop_corpus2 = CorpusDataset('../data/TRAIN/Train_laptop_corpus.csv', tokenizer) laptop_corpus3 = CorpusDataset('../data/TRAIN/Train_laptop_reviews.csv', tokenizer) makeup_corpus1 = CorpusDataset('../data/TEST/Test_reviews1.csv', tokenizer) makeup_corpus2 = CorpusDataset('../data/TRAIN/Train_reviews.csv', tokenizer) makeup_corpus3 = CorpusDataset('../data/TRAIN/Train_makeup_reviews.csv', tokenizer) 这段代码中的laptop_corpus1 和makeup_corpus1分别是什么数据？在复赛数据中好像没有提供这俩个数据啊

biubiu202012

About Whole Word Masking

dataset.py中的batchify似乎不是绝对的Whole Word Masking吧？首先是选择分词结果中的15%的词作为mask对象，然后对于选中的词的每个字概率性选择替换、保留或mask，所以也有概率一个词的部分被mask，部分被替换或保留吧，源代码如下图，不知是不是我的理解有误 ![image](https://user-images.githubusercontent.com/5812332/92727943-82077600-f3a2-11ea-9f04-01c4c0532c97.png) 结果如下 ![image](https://user-images.githubusercontent.com/5812332/92727771-3d7bda80-f3a2-11ea-9499-864f08a2c3cd.png)

sunny0315