phrase-pinyin-data icon indicating copy to clipboard operation
phrase-pinyin-data copied to clipboard

建议引入《现代汉语常用词表(草案)》(商务印书馆 2008)

Open liangqi opened this issue 6 years ago • 14 comments

不是很清楚pinyin.txt的历史来源

liangqi avatar May 21 '18 10:05 liangqi

@liangqi

  • pinyin.txt 历史数据来自 phrases-dict.jsphrases_dict.py ,都是用 https://github.com/hotoo/pinyin/blob/master/tools/robot-ci.js 生成的(词语列表来自 robot-ci.js 中用的一个分词包所用的词语列表,拼音数据是 robot-ci.js 抓取的)。
  • 可以的,不过我暂时没找到 《现代汉语常用词表(草案)》(商务印书馆 2008)的电子版数据,如果你知道从哪里可以获得的话,欢迎分享。

mozillazg avatar May 22 '18 00:05 mozillazg

这里有一个版本

https://gist.github.com/indiejoseph/eae09c673460aa0b56db

liangqi avatar May 22 '18 06:05 liangqi

@liangqi 那个应该不是完整的数据

mozillazg avatar May 26 '18 05:05 mozillazg

“This file has been truncated, but you can view the full file.”

应该是完整的,我这里有pdf版本。

现代汉语常用词表(草案) 1 的 - 56008 正方体

现代汉语常用词表(草案)音序索引 阿爸 18137 - 做作 18231

liangqi avatar May 29 '18 12:05 liangqi

@liangqi 那个文件有 56064 个词,《现代汉语常用词表(草案)》中是 56008 个词,还需要进一步确认。

mozillazg avatar May 29 '18 13:05 mozillazg

嗯,加Header 56065行,但是文件中确实没有出现56009、56010、56011

liangqi avatar May 29 '18 14:05 liangqi

开始试着用脚本读取这个数据文件,有些是typo,有些是多音字有多个条目,应该还需要一些校对工作。

liangqi avatar Jul 16 '18 06:07 liangqi

这是我的初步校对成果,https://github.com/liangqi/chinese-frequency-word-list/commit/fd6a4abfb7d655fe6c78101fba19f01a13c84f30

56008个词,但有的词有多种写法,例如“作”-“做”等,有的是多音词。

liangqi avatar Jul 18 '18 06:07 liangqi

@liangqi 👍 💯

mozillazg avatar Jul 21 '18 01:07 mozillazg

这个文件好像问题是不少,这几天用 https://github.com/lig/pystardict 和 现代汉语词典,大致检查了一下,在这个词典里能查到的条目,进行了拼音对比,结果如:https://gist.github.com/liangqi/caa7db05a269a21fe6775408aef2a800

主要问题:

  • ü->v 例如:cáilüè -> cáilvè
  • 轻声标音调
  • 大小写
  • 儿化音 er VS r

(注:词典里的多音字我还没有处理)

liangqi avatar Sep 03 '18 11:09 liangqi

@liangqi 辛苦了 👍

mozillazg avatar Sep 03 '18 14:09 mozillazg

@mozillazg 儿化音目前一般怎么处理的?按《汉语拼音方案》的话,就是单个“r“在词尾

liangqi avatar Feb 23 '19 16:02 liangqi

@liangqi 目前没按《汉语拼音方案》处理,大部分都直接是 er

mozillazg avatar Feb 24 '19 07:02 mozillazg

56008 是草案 56064 是第1版 56790 是第2版

yveshield avatar Dec 03 '22 07:12 yveshield