pkuseg-python issues

Results 115 pkuseg-python issues

Sort by recently updated

自定义词典，没有对词性可以标注的地方

自定义词典，没有对词性可以标注的地方，建议以键值对的方式，可以进行标注。

cyneck

分词速度相比jieba、ltp（python版）还是相差约8倍左右

分词速度相比jieba、ltp（python版）还是相差约8倍左右？如何改进？

snakecy

user_dict 设置用户词典。 "default", 默认参数，使用我们提供的词典。 None, 不使用词典。 dict_path, 在使用默认词典的同时会额外使用用户自定义词典，可以填自己的用户词典的路径，词典格式为一行一个词。你好，在user_dict里面有一个选项是dict_path, 请问这个怎么用？ user_dict = dict_path? 就是 user_dict = 自定义词典的路径吗？但这样用以后发现默认词典的效果没了。比如默认词典会识别 “第一次” 使用了dict_path 后 “第一次”被分开成 “第一次”

wingsyuan

对‘nr’的判断

非常好的repository，感谢您的贡献~ 好像很容易将一些词如“哈哈”或“恩”标注为nr `eg: 哈哈眼神儿真好! [哈哈:nr]` 以及将一些符号标注为n `eg: ....想太多~ [....:nr] [~:n] ` 请问有什么解决办法吗

Icyzrw

希望不要切分英文单词

```python import pkuseg seg = pkuseg.pkuseg(model_name='news') text = seg.cut('我特别喜欢Oda先生') print(' '.join(text)) >>> '我特别喜欢 O da 先生' ```

TingxunShi

新版本计划

请问新版本有发布计划么？有没有考虑和一些搜索引擎结合？比如elasticsearch之类

Tronyel

can't import feature Extractor

![image](https://user-images.githubusercontent.com/33337947/68928144-58061700-07c4-11ea-9568-d93687adb8d8.png)

LifangD

pkuseg-python
pkuseg-python copied to clipboard

Metadata

自定义词典，没有对词性可以标注的地方

分词速度相比jieba、ltp（python版）还是相差约8倍左右

不起作用：在使用默认词典的同时会额外使用用户自定义词典

对‘nr’的判断

希望不要切分英文单词

新版本计划

如何用自定义语料训练分词和词性标注一体化模型

标点符号应该是分割符吧，现在成词的一部分了，或者说可以自定义某个符号为分隔符吗

请问对于百万级语料训练时内存不够有没有什么优化处理的建议？

can't import feature Extractor

← Metadata

Owner

Metadata

pkuseg-python pkuseg-python copied to clipboard

Metadata

← Metadata

Owner

Metadata

pkuseg-python
pkuseg-python copied to clipboard