DavidDota comments

Results 10 comments of


                                            DavidDota

[text sum] _UNK

我用五万条数据进行训练，perplexity降到了20多，测试的时候输出的还是全部都是_UNK是为什么呢？ @ailurus1991 @xum2008 你们有弄好吗？

[text sum] _UNK

@huyi1989 我后来只是改善了一点点，但是还是有特别多的unk，这部分我后来分析了一下，一方面是因为在预处理的时候，面对日期，标点等等有一定的影响，另一方面是这个模型在生成词的时候若生成一个unk，后面可能全都是unk，因为重复输出也是这个模型的一个缺点，后来的一篇point-generator在这两点上面做了很不错的优化，建议你可以去读读那个文章，看看他的模型

textsum 结果都是_UNK

你好后来你找到输出都是_UNK的问题了吗？@strayly

textsum 结果都是_UNK

我是自己构造的词表，并且词表对数据集的覆盖率达到了95%@li-yuntao

textsum 结果都是_UNK

@li-yuntao 那你的模型收敛时，困惑度大概是多少呢？还有就是你用的数据集是多大的？

textsum 结果都是_UNK

@li-yuntao 谢谢！那你的数据集大概是多少条呢？

textsum 结果都是_UNK

1.0版本！

textsum 结果都是_UNK

@li-yuntao dev就是开发集

textsum 结果都是_UNK

@sunjinguo 我的效果不是很好，我觉得还是跟数据规模以及预处理数据的质量有关，但是当时由于时间关系，就没有继续做优化了

textsum 结果都是_UNK

@sunjinguo 没有，我是在学校时研究了一下，但是现在实习了并没有从事NLP，自己动手的话也就做过分词和摘要，