DavidDota

Results 10 comments of DavidDota

我用五万条数据进行训练,perplexity降到了20多,测试的时候输出的还是全部都是_UNK是为什么呢? @ailurus1991 @xum2008 你们有弄好吗?

@huyi1989 我后来只是改善了一点点,但是还是有特别多的unk,这部分我后来分析了一下,一方面是因为在预处理的时候,面对日期,标点等等有一定的影响,另一方面是这个模型在生成词的时候若生成一个unk,后面可能全都是unk,因为重复输出也是这个模型的一个缺点,后来的一篇point-generator在这两点上面做了很不错的优化,建议你可以去读读那个文章,看看他的模型

你好 后来你找到输出都是_UNK的问题了吗?@strayly

我是自己构造的词表,并且词表对数据集的覆盖率达到了95%@li-yuntao

@li-yuntao 那你的模型收敛时,困惑度大概是多少呢? 还有就是你用的数据集是多大的?

@li-yuntao 谢谢! 那你的数据集大概是多少条呢?

@li-yuntao dev就是开发集

@sunjinguo 我的效果不是很好, 我觉得还是跟数据规模以及预处理数据的质量有关,但是当时由于时间关系,就没有继续做优化了

@sunjinguo 没有,我是在学校时研究了一下,但是现在实习了并没有从事NLP,自己动手的话也就做过分词和摘要,