ansj_seg icon indicating copy to clipboard operation
ansj_seg copied to clipboard

分词有重叠的字,是bug还是没有配置好?

Open FergusChen opened this issue 6 years ago • 3 comments

版本 5.1.6, ToAnalysis.parse("我们回顾这二十多年来的世界历史"); 得到的分词结果是这样的: 我们/r,回顾/v,这/r,二十多/mq,多年来/nrf,的/u,世界/n,历史/n

为什么“二十多年”会分成“二十多”和“多年来”, 这样用建索引可以, 但正常分词就索引出错了。

用的默认配置(具体的文件中并没有内容): #path of userLibrary this is default library dic=library/default.dic

#redress dic file path ambiguityLibrary=library/ambiguity.dic

#set real name isRealName=true

#isNameRecognition default true isNameRecognition=true

#isNumRecognition default true isNumRecognition=true

#digital quantifier merge default true isQuantifierRecognition=true

FergusChen avatar Nov 29 '18 09:11 FergusChen

好吧,刚才突然看了下,把isQuantifierRecognition置为false,就不会分错了,不过这个我感觉有些奇怪。isQuantifierRecognition不是用于做这种事情的吧?

FergusChen avatar Nov 29 '18 09:11 FergusChen

这应该是 八阿哥

ansjsun avatar Dec 21 '18 10:12 ansjsun

同一个问题 5年基 [{name=5年, pos_tag=t}, {name=年基, pos_tag=nrf}]

fzy0728 avatar Feb 15 '19 02:02 fzy0728