Liang Qi
Liang Qi
@JanVeb Hi, I think you are talking about characters instead of words. I would like to consider 的 as the 's in someone's, then it isn't a word.
Not sure whether this change is related or not, https://bitbucket.org/rptlab/reportlab/commits/7df61e325601580bc36db042c6d6a8a776f62eef
这里有一个版本 https://gist.github.com/indiejoseph/eae09c673460aa0b56db
“This file has been truncated, but you can view the full file.” 应该是完整的,我这里有pdf版本。 现代汉语常用词表(草案) 1 的 - 56008 正方体 现代汉语常用词表(草案)音序索引 阿爸 18137 - 做作 18231
嗯,加Header 56065行,但是文件中确实没有出现56009、56010、56011
开始试着用脚本读取这个数据文件,有些是typo,有些是多音字有多个条目,应该还需要一些校对工作。
这是我的初步校对成果,https://github.com/liangqi/chinese-frequency-word-list/commit/fd6a4abfb7d655fe6c78101fba19f01a13c84f30 56008个词,但有的词有多种写法,例如“作”-“做”等,有的是多音词。
这个文件好像问题是不少,这几天用 https://github.com/lig/pystardict 和 现代汉语词典,大致检查了一下,在这个词典里能查到的条目,进行了拼音对比,结果如:https://gist.github.com/liangqi/caa7db05a269a21fe6775408aef2a800 主要问题: - ü->v 例如:cáilüè -> cáilvè - 轻声标音调 - 大小写 - 儿化音 er VS r (注:词典里的多音字我还没有处理)
@mozillazg 儿化音目前一般怎么处理的?按《汉语拼音方案》的话,就是单个“r“在词尾
macOS Big Sur 11.6 Squirrel 0.15.2 ABC-Extended: [\'; Switch from ABC-Extended to Squirrel: 「、‘; Norwegian: å@æø Switch from Norwegian to Squirrel: å@æø It works fine.