pkuseg-python icon indicating copy to clipboard operation
pkuseg-python copied to clipboard

两个问题:空格和自定义词性

Open majinshan opened this issue 5 years ago • 4 comments

1 文本中的空格,分词结果给去掉了。这个策略不太合适,还是保持原始文本的内容要好; 2 自定义词表能够确定被分到一起这点非常好,建议自定义词可以同时自定义词性,最好支持词性列表之外的词性标记,然后也让自定义词性不被程序改变。

谢谢!

majinshan avatar Apr 03 '19 07:04 majinshan

支持自定义词性的功能已经加上,在我fork的项目中打了分支

majinshan avatar Apr 04 '19 17:04 majinshan

支持自定义词性的功能已经加上,在我fork的项目中打了分支

请问怎么添加自定义词性?

DLBob avatar Apr 22 '19 08:04 DLBob

在我拉的分支中改的,去我的项目中找

majinshan avatar Apr 22 '19 08:04 majinshan

1 文本中的空格,分词结果给去掉了。这个策略不太合适,还是保持原始文本的内容要好; 2 自定义词表能够确定被分到一起这点非常好,建议自定义词可以同时自定义词性,最好支持词性列表之外的词性标记,然后也让自定义词性不被程序改变。

谢谢!

空格这个搞得很有问题。可以自己去源码里改。看了下,他们做了text.split(),把这个删了变成[text]就行了

GaoQ1 avatar Jun 06 '19 10:06 GaoQ1