WantWords 能识别的字太少了

能识别的字太少了

Open QWERTY770 opened this issue 3 years ago • 1 comments

刚才我验证了0x4e00到0x9fff的每一个汉字能否被识别（能出现相关近义词就是能识别，返回{"error": 1}就不能识别）

验证代码：（可能需要数小时）

import requests as r

result = 0
result_2 = 0
for i in range(0x4e01, 0x9fff + 1):
    t = r.get(f"https://wantwords.thunlp.org/ChineseRD/?description={chr(i)}&mode=CC")
    if i % 256 == 0:
        print(f"There are {result_2} unrecognizable characters in 256 characters({hex(i-256)}~{hex(i)}).")
        result_2 = 0
    if t.text == '{"error": 1}':
        result += 1
        result_2 += 1
print(result)

结果显示：在所有的20992个汉字中，竟然有9033个汉字不能被识别，能识别的仅有11959个！

因此，我觉得软件支持的汉字太少（CJK基本集支持度才57%，扩展区更加不行），很多不算太生僻的字都不能识别。可以考虑扩展词库了（肯定可以，有些不支持的汉字百度都能搜到）。

Jan 23 '22 05:01 QWERTY770

谢谢反馈！我们正在训练新模型以囊括更多中文字符。

Feb 28 '22 16:02 Fanchao-Qi

WantWords WantWords copied to clipboard

能识别的字太少了

WantWords
WantWords copied to clipboard