ansj_seg 分词有重叠的字，是bug还是没有配置好？

分词有重叠的字，是bug还是没有配置好？

Open FergusChen opened this issue 6 years ago • 3 comments

版本 5.1.6， ToAnalysis.parse("我们回顾这二十多年来的世界历史"); 得到的分词结果是这样的：我们/r,回顾/v,这/r,二十多/mq,多年来/nrf,的/u,世界/n,历史/n

为什么“二十多年”会分成“二十多”和“多年来”，这样用建索引可以，但正常分词就索引出错了。

用的默认配置（具体的文件中并没有内容）： #path of userLibrary this is default library dic=library/default.dic

#redress dic file path ambiguityLibrary=library/ambiguity.dic

#set real name isRealName=true

#isNameRecognition default true isNameRecognition=true

#isNumRecognition default true isNumRecognition=true

#digital quantifier merge default true isQuantifierRecognition=true

Nov 29 '18 09:11 FergusChen

好吧，刚才突然看了下，把isQuantifierRecognition置为false，就不会分错了，不过这个我感觉有些奇怪。isQuantifierRecognition不是用于做这种事情的吧？

Nov 29 '18 09:11 FergusChen

这应该是八阿哥

Dec 21 '18 10:12 ansjsun

同一个问题 5年基 [{name=5年, pos_tag=t}, {name=年基, pos_tag=nrf}]

Feb 15 '19 02:02 fzy0728