自定义字典没起作用
在自定义字典中添加了杨幂 句式:你喜欢杨幂吗 分词结果是:你_r 喜欢_v 杨幂吗_np 想要的结果是 你_r 喜欢_v 杨幂_rm 吗_u 只有当杨幂后面跟的字或者词能被系统识别时,系统才会把杨幂作为一个人名,为什么自定义中添加了杨幂没效果
感谢您对THULAC的支持,我们最近根据您的问题更新了版本,问题应该得到了改善
感谢您的回复,当前人名这一块确实已经改善,但是其他的还是有些问题例如:句子:你是吃货吗?把吃货加入到自定义字典,分词结果是你_r 是_v 吃货_zdy 吗_u ?_w 这个符合要求,但是当语句变成你是小吃货吗?分词结果你_r 是_v 小吃货_n 吗_u ?_w 这样不能识别吃货,这个不符合要求,是否能做到只要自定义字典中有的词都能被识别
这个目前确实做不到,由于模型原理的问题,用户词典不能将已经分好的词再次分割
是否可以不使用已分好的词,全部走自定义词典?
我现在遇到的也是自定义词不生效的问题。
具体地,我需要分词的文本是支付宝贷款,期望的结果是支付宝和贷款。
但是,使用pip安装THULAC(版本0.1.1),在默认情况下和将支付宝加入自定义词典,得到的结果都是支付和宝贷款:
>>> thu1=thulac.thulac()
Model loaded succeed
>>> thu1.cut( '支付宝贷款')
[['支付', 'v'], ['宝贷款', 'n']]
>>> thu2=thulac.thulac(user_dict='dict1')
Model loaded succeed
>>> thu2.cut( '支付宝贷款')
[['支付', 'v'], ['宝贷款', 'n']]
使用jieba分词时,可以通过调整自定义词的词频,来将某个词分开/不分开。但是使用THULAC时,似乎无法进行这类的更精细的调整?