py-kenlm-model icon indicating copy to clipboard operation
py-kenlm-model copied to clipboard

python | 高效使用统计语言模型kenlm:新词发现、分词、智能纠错等

Results 4 py-kenlm-model issues
Sort by recently updated
recently updated
newest added

您好, 参照kenlm的使用,尝试计算中文的ppl,但是我发现得到的结果特别的高,达到了好几千。我是模仿着英文计算的方式进行的,即把别人计算英文的代码中的数据源更换为分好词的中文文本。 想跟您请教一下中文的ppl值正常来讲,一般是多大比较合理呢,谢谢!

1、不需要分词,直接每个字符间用空格隔开,开头结尾加?(因为你的“我 喜欢 吃 苹 果”,“喜欢”没空格,所以有点懵;另外看了你推荐的另外一个句子通顺的项目,其中的数据一些数字没有空格,比如年份‘2018’一类的) 2、unk用于oov字,那就是说需要一个字典,但是从训练的的命令还是代码中都没看到有字典相关的部分。

请问这个报错是怎么解决的呢“依赖报错:/count_ngrams: error while loading shared libraries: libboost_program_options.so.1.58.0: cannot open shared object file: No such file or directory”,我也报这个错

请问有训练好了的对句子评分的模型吗?