nlpcc2017_news_headline_categorization
nlpcc2017_news_headline_categorization copied to clipboard
测试时出现<unk>问题
请问程序测试结果中为什么会有这样一条:
#################### ON VALIDATION SET START ####################
TAG Prec Recall
因为代码重用了vocab类,你不想看到unk可以载入tag词典的时候pop掉unk
能详细说一下怎么做么?
我更换了训练集和测试集,格式与原始数据集一样,但在测试的时候显示
unk的召回率和精度为1
你换数据集需要重新做词表以及类别词表也就是id2tag.txt文件
id2tag.txt 就是标签样式和样本容量吧?我已经修改了 vocab.txt 这个文件也需要修改么? 另外,这个模型的三种模式(lstm,cnn,cbow)的损失函数只有softmax么?代码中有negative samples loss function的选项么? 谢谢
数据集换了id2tag.txt 以及vocab.txt都需要重新根据自己的数据集生成。没有negative samples loss function你可以看代码自己加上就好了。
vocab.txt是词频分布情况吧?请问已有的vocab.txt文件是怎么生成的?如果是代码,求分享! 谢谢