OpinioNet
OpinioNet copied to clipboard
2019之江杯人工智能大赛电商评论观点挖掘赛道top3
您好请问 laptop_corpus1 = CorpusDataset('../data/TEST/Test_reviews.csv', tokenizer) laptop_corpus2 = CorpusDataset('../data/TRAIN/Train_laptop_corpus.csv', tokenizer) laptop_corpus3 = CorpusDataset('../data/TRAIN/Train_laptop_reviews.csv', tokenizer) makeup_corpus1 = CorpusDataset('../data/TEST/Test_reviews1.csv', tokenizer) makeup_corpus2 = CorpusDataset('../data/TRAIN/Train_reviews.csv', tokenizer) makeup_corpus3 = CorpusDataset('../data/TRAIN/Train_makeup_reviews.csv', tokenizer) 这段代码中的laptop_corpus1 和makeup_corpus1分别是什么数据?在复赛数据中好像没有提供这俩个数据啊
dataset.py中的batchify似乎不是绝对的Whole Word Masking吧?首先是选择分词结果中的15%的词作为mask对象,然后对于选中的词的每个字概率性选择替换、保留或mask,所以也有概率一个词的部分被mask,部分被替换或保留吧,源代码如下图,不知是不是我的理解有误  结果如下 
想问一下作者,makeup和laptop的格式是什么样子的呢,谢谢了