nlpcc2017_news_headline_categorization 测试时出现<unk>问题

测试时出现<unk>问题

Open zhongboyin opened this issue 7 years ago • 8 comments

请问程序测试结果中为什么会有这样一条： #################### ON VALIDATION SET START #################### TAG Prec Recall 0.0000 0.0000

Jun 27 '17 02:06 zhongboyin

因为代码重用了vocab类，你不想看到unk可以载入tag词典的时候pop掉unk

Jun 27 '17 02:06 jingjing-gong

能详细说一下怎么做么？

Jun 27 '17 11:06 zhongboyin

我更换了训练集和测试集，格式与原始数据集一样，但在测试的时候显示的精度和召回率为1 ，其他类别都是0，请赐教！

Jun 27 '17 11:06 zhongboyin

unk的召回率和精度为1

Jun 27 '17 12:06 zhongboyin

你换数据集需要重新做词表以及类别词表也就是id2tag.txt文件

Jun 27 '17 13:06 jingjing-gong

id2tag.txt 就是标签样式和样本容量吧？我已经修改了 vocab.txt 这个文件也需要修改么？另外，这个模型的三种模式（lstm，cnn，cbow）的损失函数只有softmax么？代码中有negative samples loss function的选项么？谢谢

Jun 28 '17 03:06 zhongboyin

数据集换了id2tag.txt 以及vocab.txt都需要重新根据自己的数据集生成。没有negative samples loss function你可以看代码自己加上就好了。

Jun 28 '17 03:06 jingjing-gong

vocab.txt是词频分布情况吧？请问已有的vocab.txt文件是怎么生成的？如果是代码，求分享！谢谢

Jun 28 '17 04:06 zhongboyin