ansj_seg
ansj_seg copied to clipboard
分词有重叠的字,是bug还是没有配置好?
版本 5.1.6, ToAnalysis.parse("我们回顾这二十多年来的世界历史"); 得到的分词结果是这样的: 我们/r,回顾/v,这/r,二十多/mq,多年来/nrf,的/u,世界/n,历史/n
为什么“二十多年”会分成“二十多”和“多年来”, 这样用建索引可以, 但正常分词就索引出错了。
用的默认配置(具体的文件中并没有内容): #path of userLibrary this is default library dic=library/default.dic
#redress dic file path ambiguityLibrary=library/ambiguity.dic
#set real name isRealName=true
#isNameRecognition default true isNameRecognition=true
#isNumRecognition default true isNumRecognition=true
#digital quantifier merge default true isQuantifierRecognition=true
好吧,刚才突然看了下,把isQuantifierRecognition置为false,就不会分错了,不过这个我感觉有些奇怪。isQuantifierRecognition不是用于做这种事情的吧?
这应该是 八阿哥
同一个问题 5年基 [{name=5年, pos_tag=t}, {name=年基, pos_tag=nrf}]