OpinioNet icon indicating copy to clipboard operation
OpinioNet copied to clipboard

2019之江杯人工智能大赛电商评论观点挖掘赛道top3

Results 3 OpinioNet issues
Sort by recently updated
recently updated
newest added

您好请问 laptop_corpus1 = CorpusDataset('../data/TEST/Test_reviews.csv', tokenizer) laptop_corpus2 = CorpusDataset('../data/TRAIN/Train_laptop_corpus.csv', tokenizer) laptop_corpus3 = CorpusDataset('../data/TRAIN/Train_laptop_reviews.csv', tokenizer) makeup_corpus1 = CorpusDataset('../data/TEST/Test_reviews1.csv', tokenizer) makeup_corpus2 = CorpusDataset('../data/TRAIN/Train_reviews.csv', tokenizer) makeup_corpus3 = CorpusDataset('../data/TRAIN/Train_makeup_reviews.csv', tokenizer) 这段代码中的laptop_corpus1 和makeup_corpus1分别是什么数据?在复赛数据中好像没有提供这俩个数据啊

dataset.py中的batchify似乎不是绝对的Whole Word Masking吧?首先是选择分词结果中的15%的词作为mask对象,然后对于选中的词的每个字概率性选择替换、保留或mask,所以也有概率一个词的部分被mask,部分被替换或保留吧,源代码如下图,不知是不是我的理解有误 ![image](https://user-images.githubusercontent.com/5812332/92727943-82077600-f3a2-11ea-9f04-01c4c0532c97.png) 结果如下 ![image](https://user-images.githubusercontent.com/5812332/92727771-3d7bda80-f3a2-11ea-9499-864f08a2c3cd.png)

想问一下作者,makeup和laptop的格式是什么样子的呢,谢谢了