jieba icon indicating copy to clipboard operation
jieba copied to clipboard

请问dict.txt是通过什么规则得到的呢?

Open Miya-M opened this issue 7 years ago • 8 comments

Miya-M avatar Dec 08 '17 06:12 Miya-M

你没看代码吗? image

ghost avatar Dec 13 '17 21:12 ghost

哎,作者就是不爱写注释,哎。

ghost avatar Dec 13 '17 22:12 ghost

@ilqxejraha 谢谢您,可能是我表达有误,我是想问词汇库里面的词汇和词频是人工统计的吗?还是通过其它的方法。

Miya-M avatar Dec 14 '17 12:12 Miya-M

统计过来的。最后得到了就是这么一个模型。

ghost avatar Dec 16 '17 08:12 ghost

你在源码中看到词频的使用了吗?

ghost avatar Dec 16 '17 08:12 ghost

具体的统计词频,词频的作用可能体现在,一个词存在多个意思。 比如英语中,经常有一个词会有很多个意思。

比如出现一个词,并且,这个词有很多种解释,这时候词频可能会对词意的选择有一定帮助。

具体的其他算法hmm的我还没看。

ghost avatar Dec 16 '17 08:12 ghost

@KevinDotW 据说是基于人民日报的语料库,我也想知道怎么才能创建自己的词典

xfeng15 avatar Mar 12 '18 09:03 xfeng15

请问下大家jieba词典的是如何训练得到的吗

pc123s avatar Dec 16 '20 02:12 pc123s