pkuseg-python icon indicating copy to clipboard operation
pkuseg-python copied to clipboard

pkuseg多领域中文分词工具; The pkuseg toolkit for multi-domain Chinese word segmentation

Results 115 pkuseg-python issues
Sort by recently updated
recently updated
newest added

自定义词典,没有对词性可以标注的地方,建议以键值对的方式,可以进行标注。

分词速度相比jieba、ltp(python版)还是相差约8倍左右?如何改进?

user_dict 设置用户词典。 "default", 默认参数,使用我们提供的词典。 None, 不使用词典。 dict_path, 在使用默认词典的同时会额外使用用户自定义词典,可以填自己的用户词典的路径,词典格式为一行一个词。 你好,在user_dict里面有一个选项是dict_path, 请问这个怎么用? user_dict = dict_path? 就是 user_dict = 自定义词典的路径吗? 但这样用以后发现默认词典的效果没了。 比如 默认词典会识别 “第一次” 使用了dict_path 后 “第一次”被分开成 “第一 次”

非常好的repository,感谢您的贡献~ 好像很容易将一些词如“哈哈”或“恩”标注为nr `eg: 哈哈 眼神儿真好! [哈哈:nr]` 以及将一些符号标注为n `eg: ....想太多~ [....:nr] [~:n] ` 请问有什么解决办法吗

```python import pkuseg seg = pkuseg.pkuseg(model_name='news') text = seg.cut('我特别喜欢Oda先生') print(' '.join(text)) >>> '我 特别 喜欢 O da 先生' ```

请问新版本有发布计划么?有没有考虑和一些搜索引擎结合?比如elasticsearch之类

![image](https://user-images.githubusercontent.com/33337947/68928144-58061700-07c4-11ea-9568-d93687adb8d8.png)