pkuseg-python
pkuseg-python copied to clipboard
BUG! 加载百万级词库后,会将每个字都单独分开
当用户自定义词库达到百万级别数量时。 分词会出现bug,将所有字单独切开。 导致这个bug的原因是什么呢?
Same here.
小问题 不要慌,看看__init__.py这个文件就明白了,所有词典的词汇会被存在一个树里,导致了加载速度慢,其次所有词典中的词汇会被强制切开。百万级词库等于说把模型的判断就覆盖掉了。这个只能改写词典加词后的切分规则,或模仿jieba,加入词频机制。
@yanchidezhang 这个能够在代码里面修正一下吗?还是要用户自己来做?
‘这个只能改写词典加词后的切分规则,或模仿jieba’ 能够具体点吗?
你们的百万级词库从哪里来的