pkuseg-python icon indicating copy to clipboard operation
pkuseg-python copied to clipboard

BUG! 加载百万级词库后,会将每个字都单独分开

Open Fan9 opened this issue 5 years ago • 4 comments

当用户自定义词库达到百万级别数量时。 分词会出现bug,将所有字单独切开。 导致这个bug的原因是什么呢?

Fan9 avatar Jan 09 '20 06:01 Fan9

Same here.

lingvisa avatar Mar 09 '20 02:03 lingvisa

小问题 不要慌,看看__init__.py这个文件就明白了,所有词典的词汇会被存在一个树里,导致了加载速度慢,其次所有词典中的词汇会被强制切开。百万级词库等于说把模型的判断就覆盖掉了。这个只能改写词典加词后的切分规则,或模仿jieba,加入词频机制。

yanchidezhang avatar Jun 23 '20 02:06 yanchidezhang

@yanchidezhang 这个能够在代码里面修正一下吗?还是要用户自己来做?

‘这个只能改写词典加词后的切分规则,或模仿jieba’ 能够具体点吗?

lingvisa avatar Jun 23 '20 07:06 lingvisa

你们的百万级词库从哪里来的

forcemeter avatar Jan 12 '21 10:01 forcemeter