jcorrector icon indicating copy to clipboard operation
jcorrector copied to clipboard

你好,人民日报2014的训练集是什么格式

Open xiaohanjun20 opened this issue 2 years ago • 2 comments

我对比了pycorrector的数据集,他的数据集有提到2.8G的zh_giga.no_cna_cmn.prune01244.klm文件,另一个就是效果不太好的人民日报的2014版数据集,但是他的事klm格式,而你是一个bin格式。

但内容我看了下,你这个bin是纯文本,能详细的指导下吗?

xiaohanjun20 avatar Aug 18 '23 07:08 xiaohanjun20

不好意思,你那个bin应该是n-gram的文件,请问你下,n-gram的训练数据是2014的是不?

xiaohanjun20 avatar Aug 18 '23 07:08 xiaohanjun20

是的

jiangnanboy avatar Nov 07 '23 12:11 jiangnanboy