CJK-character-count
CJK-character-count copied to clipboard
部分字表存在问题
- gb12345-han.txt
靜->静
参考:https://github.com/zispace/hanzi-docs/blob/main/中国大陆/2-GB-国家标准/19900613-GBT%2012345-1990《信息交换用汉字编码字符集辅助集》.pdf
- hkchangyong-han.txt
僣卬嗉枏琨瘐禺穇粺縕薜薶褟訏陜->僭卯嗦枴琵瘦禹穆粹縊薛藐褶訐陝
推测,部分网络资料原始的OCR存在问题 可以用https://zh.wikisource.org/wiki/常用字字形表。不过,可以修订或都保留:告->吿 参考:https://github.com/zispace/hanzi-docs/blob/main/中國香港/20000700-《〈常用字字形表〉標準字體表》(2000版).pdf
比如“僣->僭” (这里有两个字形,前者字形和“僣僭”皆有差异,而且“僣、僭”只在义项可做异体字,并不等同)
“嗉->嗦”(两个字皆有且完全不相关,但“嗉”加星号,“嗦”字更常用)
- GB/T 12345 使用的源头 https://github.com/mrhso/IshisashiEncoding/blob/master/%E5%AD%97%E7%AC%A6%E6%9D%82%E8%AE%B0/%E5%8C%BA%E4%BD%8D%E8%A1%A8/GB%EF%BC%8FT%2012345.txt 已更新,下一版会更新字表。
- 目前的《常用字字形表》来源为 https://github.com/rime-aca/character_set/blob/master/%E5%B8%B8%E7%94%A8%E5%AD%97%E5%AD%97%E5%BD%A2%E8%A1%A8.txt ,已阅读过提供的 PDF,但是该文件不是正式文件扫描版因此无法判断其完整性。后续会用 PDF、维基文献 和 zi.tools 重新人工比对。
香港的字形确实有点问题,暂时没有出版物对照。
香港常用字所列的几个字,在90版(字数是4759字)中确实有: https://github.com/zispace/hanzi-docs/blob/main/中國香港/19900700-常用字字形表修订本-香港教育署语文教育学院中文系.pdf
对应书中字码(序号)如下: 僭 236 卯 443 嗦 645 枴 1888 琵 2560 瘦 2676 禹 2888 穆 2926 粹 3043 縊 3137 薛 3548 藐 3554 褶 3720 訐 3755 陝 4377
另外追加从 RIME 仓库来的错误/优先排序问题:
| 序号 | 错误 | 正确 | 性质 |
|---|---|---|---|
| 0187 | 倶 5036 | 俱 4FF1 | 错误 |
| 0270 | 兌 514C | 兑 5151 | 排序 |
| 0336 | 别 522B | 別 5225 | 错误 |
| 0393 | 勳 52F3 | 勛 52DB | 排序 |
| 0523 | 呐 5450 | 吶 5436 | 错误 |
| 0724 | 囪 56EA | 囱 56F1 | 排序 |
| 0832 | 够 591F | 夠 5920 | 排序 |
| 1096 | 崗 5D17 | 岡 5CA1 | 排序 |
| 1230 | 弑 5F11 | 弒 5F12 | 错误 |
| 1340 | 悅 6085 | 悦 60A6 | 排序 |
| 1694 | 携 643A | 攜 651C | 排序 |
| 1715 | 叙 53D9 | 敍 654D | 排序 |
| 1851 | 邨 90A8 | 村 6751 | 排序 |
| 1874 | 枏 678F | 枚 679A | 错误 |
| 1894 | 檯 6AAF | 枱 67B1 | 排序 |
| 2023 | 柜 67DC | 櫃 6AC3 | 排序 |
| 2045 | 嘆 5606 | 歎 6B4E | 排序 |
| 2091 | 氊 6C0A | 氈 6C08 | 排序 |
| 2366 | 竈 7AC8 | 灶 7076 | 排序 |
| 2401 | 烟 70DF | 煙 7159 | 排序 |
| 2505 | 貍 8C8D | 狸 72F8 | 排序 |
| 2637 | 疎 758E | 疏 758F | 排序 |
| 2906 | 稅 7A05 | 税 7A0E | 排序 |
| 3157 | 綉 7D89 | 繡 7E61 | 排序 |
| 3176 | 鉢 9262 | 缽 7F3D | 排序 |
| 3307 | 脫 812B | 脱 8131 | 排序 |
| 3359 | 臥 81E5 | 卧 5367 | 排序 |
| 3374 | 擧 64E7 | 舉 8209 | 排序 |
| 3562 | 蘊 860A | 藴 85F4 | 排序 |
| 3608 | 蛻 86FB | 蜕 8715 | 排序 |
| 3657 | 蠏 880F | 蟹 87F9 | 错误 |
| 3675 | 衛 885B | 衞 885E | 排序 |
| 3724 | 襃 8943 | 褒 8912 | 排序 |
| 3799 | 說 8AAA | 説 8AAC | 排序 |
| 4212 | 醞 919E | 醖 9196 | 排序 |
| 4262 | 銳 92B3 | 鋭 92ED | 排序 |
| 4311 | 銹 92B9 | 鏽 93FD | 排序 |
| 4319 | 鑑 9451 | 鑒 9452 | 排序 |
| 4346 | 閱 95B1 | 閲 95B2 | 排序 |
| 4484 | 靭 976D | 韌 97CC | 排序 |
| 4492 | 韵 97F5 | 韻 97FB | 排序 |