py-kenlm-model issues

中文通过kenlm计算的ppl值一般为多大

1

您好，参照kenlm的使用，尝试计算中文的ppl,但是我发现得到的结果特别的高，达到了好几千。我是模仿着英文计算的方式进行的，即把别人计算英文的代码中的数据源更换为分好词的中文文本。想跟您请教一下中文的ppl值正常来讲，一般是多大比较合理呢，谢谢！

zhunipingan

数据预处理部分有几个地方不太明白

1

1、不需要分词，直接每个字符间用空格隔开，开头结尾加？（因为你的“我喜欢吃苹果”，“喜欢”没空格，所以有点懵；另外看了你推荐的另外一个句子通顺的项目，其中的数据一些数字没有空格，比如年份‘2018’一类的） 2、unk用于oov字，那就是说需要一个字典，但是从训练的的命令还是代码中都没看到有字典相关的部分。

brealisty

error

1

请问这个报错是怎么解决的呢“依赖报错：/count_ngrams: error while loading shared libraries: libboost_program_options.so.1.58.0: cannot open shared object file: No such file or directory”，我也报这个错

ZTurboX