pkuseg-python icon indicating copy to clipboard operation
pkuseg-python copied to clipboard

请问pkuseg该如何设置分词规则?

Open windf17 opened this issue 4 years ago • 0 comments

我发现pkuseg处理地址信息分词的时候经常会把数字、字母和汉字分成了词组, 我希望添加规则,数字只能和号、弄、楼、室组成词组,和别的汉字不能组成词组。 请问有没有方法可以做到?非常迫切需要学会添加pkuseg分词规则的方法。 这种分词规则:例如1号、2号...9999号,都可以组词,1弄、2弄...9999弄都可以组词,如果用加字典的处理的话不太现实。

windf17 avatar May 31 '20 10:05 windf17