THULAC-Python icon indicating copy to clipboard operation
THULAC-Python copied to clipboard

自定义字典没起作用

Open hwf52591 opened this issue 8 years ago • 5 comments

在自定义字典中添加了杨幂 句式:你喜欢杨幂吗 分词结果是:你_r 喜欢_v 杨幂吗_np 想要的结果是 你_r 喜欢_v 杨幂_rm 吗_u 只有当杨幂后面跟的字或者词能被系统识别时,系统才会把杨幂作为一个人名,为什么自定义中添加了杨幂没效果

hwf52591 avatar Jun 05 '17 10:06 hwf52591

感谢您对THULAC的支持,我们最近根据您的问题更新了版本,问题应该得到了改善

MaJunhua avatar Jun 09 '17 13:06 MaJunhua

感谢您的回复,当前人名这一块确实已经改善,但是其他的还是有些问题例如:句子:你是吃货吗?把吃货加入到自定义字典,分词结果是你_r 是_v 吃货_zdy 吗_u ?_w 这个符合要求,但是当语句变成你是小吃货吗?分词结果你_r 是_v 小吃货_n 吗_u ?_w 这样不能识别吃货,这个不符合要求,是否能做到只要自定义字典中有的词都能被识别

hwf52591 avatar Jun 12 '17 09:06 hwf52591

这个目前确实做不到,由于模型原理的问题,用户词典不能将已经分好的词再次分割

MaJunhua avatar Jun 14 '17 07:06 MaJunhua

是否可以不使用已分好的词,全部走自定义词典?

hwf52591 avatar Jun 14 '17 08:06 hwf52591

我现在遇到的也是自定义词不生效的问题。

具体地,我需要分词的文本是支付宝贷款,期望的结果是支付宝贷款

但是,使用pip安装THULAC(版本0.1.1),在默认情况下和将支付宝加入自定义词典,得到的结果都是支付宝贷款:

>>> thu1=thulac.thulac()
Model loaded succeed
>>> thu1.cut( '支付宝贷款')
[['支付', 'v'], ['宝贷款', 'n']]
>>> thu2=thulac.thulac(user_dict='dict1')
Model loaded succeed
>>> thu2.cut( '支付宝贷款')
[['支付', 'v'], ['宝贷款', 'n']]

使用jieba分词时,可以通过调整自定义词的词频,来将某个词分开/不分开。但是使用THULAC时,似乎无法进行这类的更精细的调整?

rk700 avatar Jun 15 '17 03:06 rk700