lac icon indicating copy to clipboard operation
lac copied to clipboard

测试自定义词典分词效果较差

Open lxsyz opened this issue 3 years ago • 1 comments

case示例:

from LAC import LAC
l = LAC(mode='seg')
l.add_word("广东省/n")
l.add_word("人/n")
l.add_word("民/n")
l.add_word("人民/n")
l.add_word("民政/n")
l.add_word("政府/n")
l.run("人民政府")
['人', '民', '政府']

期望得到 ['人民', '政府'] 我观察在源码 parse_customization 中仅根据前缀树来修正,有办法引入概率或者其他方式来解决优化吗?

lxsyz avatar Nov 30 '21 10:11 lxsyz

去掉

l.add_word("人/n")
l.add_word("民/n")

这两行?

gary02 avatar Jun 29 '22 08:06 gary02