pkuseg-python icon indicating copy to clipboard operation
pkuseg-python copied to clipboard

pkuseg多领域中文分词工具; The pkuseg toolkit for multi-domain Chinese word segmentation

Results 115 pkuseg-python issues
Sort by recently updated
recently updated
newest added

我的训练集中有一些词,比如“查不到”,大概出现了100次,但是在测试的时候在不加词典的情况下就始终把这个词分不出来,请问这是怎么回事?

1、这个trainFile, testFile这两个文件的数据格式,具体是怎么样的,有没有一个特定的限制,或者是样例? 2、如果需要进行增量训练,是不是只需要在init_model 这个参数,设置某个领域的参数,比如医疗领域的,我再使用新的数据集进行训练的时候,这个iniit_model参数设置为“medicine” 3、那个训练参数的问题,有没有什么评估的标准,来确定训练多少个train_iter ?

`FileNotFoundError: [Errno 2] No such file or directory: '/Users/umuoy1/.pkuseg/news/unigram_word.txt'` macOS Big Sur11.1 py3.9.5 已经下载`news.zip`到`~/.pkuseg/`

In https://github.com/lancopku/pkuseg-python/blob/d581c95e3ddec3f236ebe74fd626b6e1cfe112ee/pkuseg/model.py#L25 While increasing `n_tag` such copy neglects the spacing, and simply put original weights at the ending side. This is inconsistent to the addressing method in `_get_tag_tag_feature_id`.

Hey, First, thanks for your work! This PR fixes a bug when no wheel installer is available and installing from source requires pre-installed requirements.

WARNING: features.pkl does not exist, try loading features.json WARNING: features.json does not exist, try loading using old format Traceback (most recent call last): File "C:/Users/Administrator/Desktop/pytest/test.py", line 3, in seg =...

当用户自定义词库达到百万级别数量时。 分词会出现bug,将所有字单独切开。 导致这个bug的原因是什么呢?

我想使用第三种安装方式来安装pkuseg,选择了预训练模型0.0.11版本的ctb8数据,请问如何使用source code中的setup.py来配置环境?

第90行,Preprocesser类,solve函数,应该found=True同时,也加上j = last_word_idx + 1。 反例如下: user_dict.txt: 车 车在中国 执行pkuseg.cut('电动车在上海')时,会cut出 电动/车在/上海

> seg2 = pkuseg.pkuseg(model_name='web', user_dict=["Color OS", "前摄像头"]) > > print(seg2.cut("Color OS")) # ['Color', 'OS'] > print(seg2.cut("前摄像头")) # ['前摄像头'] 在用户词典中添加带有空格的关键词,但是在后续的分词过程中并没有生效。