THULAC-Python icon indicating copy to clipboard operation
THULAC-Python copied to clipboard

自定义词典有大小限制

Open jiangchao123 opened this issue 7 years ago • 2 comments

加载自定义词典一直提示IndexError: list index out of range,从3万减到300才可以。 我能否完全替换掉你们的词典,用自己的词典?

jiangchao123 avatar Aug 07 '17 10:08 jiangchao123

感谢您对thulac的支持,您可以把具体的报错信息贴上来我们看下是什么原因。另外词典用于分词最后的后处理阶段,使分好的词与用户词典匹配。我们的模型中是不包含词典的,模型完全通过概率计算最可能的分词结果,词典只是作为修正

MaJunhua avatar Aug 10 '17 02:08 MaJunhua

同样遇到这种问题,自定义词典过长的话,就会报错。感觉thulac对中文支持的非常好,但是由于本行业专用术语比较多,有很大数量的自定义词语,若想要更好的使用thulac,就必须使用海量专有词语的自定义词典,而要使用这种自定义词典的话,就得先解决IndexError: list index out of range问题,请问该如何解决,非常感谢!

Stubborn-Ant avatar Jan 28 '19 08:01 Stubborn-Ant