snownlp
snownlp copied to clipboard
关于分词模块的数据平滑
CharacterBasedGenerativeModel统计时默认用的是NormalProb做的数据平滑,我在训练时试图换成frequency.py中的加一平滑或古德图灵平滑,结果分词结果却出奇的差,请问是怎么回事呢?
抱歉,这个暂时没有做过多的研究,是个值得思考的问题呢
好的,那我再研究下,谢谢了
@isnowfy 请教一下 大神如果对于正负面的评论的训练数据中,负面评论的数据远大于正面评论的数据,对于其结果会照成什么影响?
@Trueflash 额,问问题的话最好开新的issue,不要总在别的issue里问 负面数据多的话有可能正面的准确率高召回低,一般采用负例采样或者正例加权的方法