lac
lac copied to clipboard
测试自定义词典分词效果较差
case示例:
from LAC import LAC
l = LAC(mode='seg')
l.add_word("广东省/n")
l.add_word("人/n")
l.add_word("民/n")
l.add_word("人民/n")
l.add_word("民政/n")
l.add_word("政府/n")
l.run("人民政府")
['人', '民', '政府']
期望得到 ['人民', '政府']
我观察在源码 parse_customization
中仅根据前缀树来修正,有办法引入概率或者其他方式来解决优化吗?
去掉
l.add_word("人/n")
l.add_word("民/n")
这两行?