snownlp icon indicating copy to clipboard operation
snownlp copied to clipboard

关于分词模块的数据平滑

Open goodbai-nlp opened this issue 8 years ago • 4 comments

CharacterBasedGenerativeModel统计时默认用的是NormalProb做的数据平滑,我在训练时试图换成frequency.py中的加一平滑或古德图灵平滑,结果分词结果却出奇的差,请问是怎么回事呢?

goodbai-nlp avatar Jul 30 '16 02:07 goodbai-nlp

抱歉,这个暂时没有做过多的研究,是个值得思考的问题呢

isnowfy avatar Aug 04 '16 15:08 isnowfy

好的,那我再研究下,谢谢了

goodbai-nlp avatar Aug 04 '16 23:08 goodbai-nlp

@isnowfy 请教一下 大神如果对于正负面的评论的训练数据中,负面评论的数据远大于正面评论的数据,对于其结果会照成什么影响?

Trueflash avatar Sep 12 '16 04:09 Trueflash

@Trueflash 额,问问题的话最好开新的issue,不要总在别的issue里问 负面数据多的话有可能正面的准确率高召回低,一般采用负例采样或者正例加权的方法

isnowfy avatar Sep 12 '16 04:09 isnowfy