snownlp 关于分词模块的数据平滑

关于分词模块的数据平滑

Open goodbai-nlp opened this issue 8 years ago • 4 comments

CharacterBasedGenerativeModel统计时默认用的是NormalProb做的数据平滑，我在训练时试图换成frequency.py中的加一平滑或古德图灵平滑，结果分词结果却出奇的差，请问是怎么回事呢？

Jul 30 '16 02:07 goodbai-nlp

抱歉，这个暂时没有做过多的研究，是个值得思考的问题呢

Aug 04 '16 15:08 isnowfy

好的，那我再研究下，谢谢了

Aug 04 '16 23:08 goodbai-nlp

@isnowfy 请教一下　大神如果对于正负面的评论的训练数据中，负面评论的数据远大于正面评论的数据，对于其结果会照成什么影响？

Sep 12 '16 04:09 Trueflash

@Trueflash 额，问问题的话最好开新的issue，不要总在别的issue里问负面数据多的话有可能正面的准确率高召回低，一般采用负例采样或者正例加权的方法

Sep 12 '16 04:09 isnowfy