pkuseg-python BUG！加载百万级词库后，会将每个字都单独分开

BUG！加载百万级词库后，会将每个字都单独分开

Open Fan9 opened this issue 5 years ago • 4 comments

当用户自定义词库达到百万级别数量时。分词会出现bug,将所有字单独切开。导致这个bug的原因是什么呢？

Jan 09 '20 06:01 Fan9

Same here.

Mar 09 '20 02:03 lingvisa

小问题不要慌，看看__init__.py这个文件就明白了，所有词典的词汇会被存在一个树里，导致了加载速度慢，其次所有词典中的词汇会被强制切开。百万级词库等于说把模型的判断就覆盖掉了。这个只能改写词典加词后的切分规则，或模仿jieba，加入词频机制。

Jun 23 '20 02:06 yanchidezhang

@yanchidezhang 这个能够在代码里面修正一下吗？还是要用户自己来做？

‘这个只能改写词典加词后的切分规则，或模仿jieba’ 能够具体点吗？

Jun 23 '20 07:06 lingvisa

你们的百万级词库从哪里来的

Jan 12 '21 10:01 forcemeter