pkuseg-python icon indicating copy to clipboard operation
pkuseg-python copied to clipboard

pkuseg多领域中文分词工具; The pkuseg toolkit for multi-domain Chinese word segmentation

Results 115 pkuseg-python issues
Sort by recently updated
recently updated
newest added

尝试从 jieba 切换到 pkuseg,发现程序占用内存明显上涨,分析内存后发现,pkuseg 在被加载进内存后,大概占用 730MB 的内存,请问后期会有优化吗

如题,pkuseg的多领域分词带来了一定的优势,但是pkuseg目前功能还比较少,作者以后考虑加入关键词提取功能吗?如果有打算,大概多长时间呢?

好像python2.7.10跑不了啊

D:\workspace\pywork\NLP>ipython Python 3.7.3 (v3.7.3:ef4ec6ed12, Mar 25 2019, 22:22:05) [MSC v.1916 64 bit (AMD64)] Type 'copyright', 'credits' or 'license' for more information IPython 7.4.0 -- An enhanced Interactive Python. Type '?'...

- [x] I have searched the [issues](https://github.com/lancopku/pkuseg-python/issues) of this repository and believe that this is not a duplicate. ### Version 0.0.21 ### Environment > macOs 10.14.5 Beta (18F96h) Python 3.7.2...

能否提供java api接口调用?

jieba有ElasticSearch的plugin。

首先感谢作者的开源精神:) 我的问题如下: 环境说明:CentOS7、anaconda4.2.0、Python3.5 问题说明: 测试训练过程中,使用pip install -U pkuseg安装pkuseg,对icwb2数据进行训练 代码如下: `def trian(): t1 = time.time() pkuseg.train("./data/retrain/msr_training.utf8","./data/retrain/msr_test_gold.utf8","./data/retrain/retrain_model",5,nthread=20) t2 = time.time() print("程序运行时间:"+str(t2-t1)) if __name__ == '__main__': trian()` 执行:Python train.py 报错:ImportError: /root/anaconda3/lib/python3.5/site-packages/pkuseg/feature_extractor.cpython-35m-x86_64-linux-gnu.so: undefined symbol:...

作者你好,我测试一下,发现这个分词工具在医学细分领域的准确率还是很不错的。现在我在使用这个工具的过程中遇到一个问题,希望能获得作者的帮助。 就是我把“阿立哌唑片安慰剂“,”阿立哌唑片“这两个词加入到自定义词典中,但是后面识别“阿立哌唑片安慰剂”只能识别出“阿立哌唑片”,我想识别出最大的,请问有办法吗