pkuseg-python
pkuseg-python copied to clipboard
请问pkuseg该如何设置分词规则?
我发现pkuseg处理地址信息分词的时候经常会把数字、字母和汉字分成了词组, 我希望添加规则,数字只能和号、弄、楼、室组成词组,和别的汉字不能组成词组。 请问有没有方法可以做到?非常迫切需要学会添加pkuseg分词规则的方法。 这种分词规则:例如1号、2号...9999号,都可以组词,1弄、2弄...9999弄都可以组词,如果用加字典的处理的话不太现实。