common-random icon indicating copy to clipboard operation
common-random copied to clipboard

请问汉语词汇数据是在哪里找的呢?

Open Greenjiao opened this issue 2 years ago • 4 comments

我想生成形容词+名词的随机昵称,找了半天数据,发现这里有名次的txt文件,但还缺少形容词的数据,请问作者那些汉语词汇都是怎么收集的,我翻了好多语料库,只能找到部分数据,远不如作者您的数据量

Greenjiao avatar Sep 17 '23 13:09 Greenjiao

从各种公开的文章中截取出来,去重得到的。而且我这些也不太全。

yindz avatar Sep 18 '23 01:09 yindz

所以你会发现我收集的这些词语,也是书面语偏多,口头语少。 本质上这个是一个简易的工具,也很难做到大而全,不然这个jar就会越做越大,就偏离了初衷。

yindz avatar Sep 18 '23 07:09 yindz

所以你会发现我收集的这些词语,也是书面语偏多,口头语少。 本质上这个是一个简易的工具,也很难做到大而全,不然这个jar就会越做越大,就偏离了初衷。

爬取文章后进行语义分析按照词性提取么

Greenjiao avatar Sep 18 '23 10:09 Greenjiao

所以你会发现我收集的这些词语,也是书面语偏多,口头语少。 本质上这个是一个简易的工具,也很难做到大而全,不然这个jar就会越做越大,就偏离了初衷。

嗯,理解

Greenjiao avatar Sep 18 '23 10:09 Greenjiao