rime-huma Todo

目前的方案已經初步完成，但是還有很多問題。

能反映大陸用字的繁體字頻表很難找到，因此常有常用字簡碼被罕用字擠佔的情況。
與第一條相關，「國字表」包含很多古籍用字，但未包含大陸香港的常用字與異體字，這部分需要刪補。
詞表很爛，收了太多無意義詞，反倒某些常用詞丟失。

接下來目標：

[x] #2
[x] #3
[x] 調整詞表，可能需要重做
[x] #7
[ ] #5
[ ] #8
[ ] #16
[x] #15
[ ] #10 異體字開關

Jan 31 '23 16:01 ywxt

能反映大陸用字的繁體字頻表很難找到

之前也碰到過這個問題，可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ，但是主要是簡化字的…… _(:з」∠)_

我目前用的辦法是，把簡繁字對兒放在一起算字頻，例如：F({東，东}) = F(東) + F(东)。最後這兩個字給予相同的權重 W(東) = W(东) = F({東, 东}) 即可。我的代碼。精細一點調整的話，還需要讓繁體字權重略大一點，不過我目前還沒有實現。

只在音碼上測試過這個方法（結果是沒有讀音加權有效），形碼上的效果不是很清楚，僅供參考。 _(:з」∠)_

Feb 01 '23 02:02 ksqsf

能反映大陸用字的繁體字頻表很難找到

之前也碰到過這個問題，可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ，但是主要是簡化字的…… (:з」∠)

我目前用的辦法是，把簡繁字對兒放在一起算字頻，例如：F({東，东}) = F(東) + F(东)。最後這兩個字給予相同的權重 W(東) = W(东) = F({東, 东}) 即可。我的代碼。精細一點調整的話，還需要讓繁體字權重略大一點，不過我目前還沒有實現。

只在音碼上測試過這個方法（結果是沒有讀音加權有效），形碼上的效果不是很清楚，僅供參考。 (:з」∠)

感謝關注。

這個分兩個問題。

第一個是應收哪些異體字。舉個例子，「爲」與「為」是一組常見異體字（異寫字），一般的使用者都會希望二者兼收。但「𠄔」作爲「幻」之隸定字，通常恐怕很難用到他。

第二個是異體字。或體（意義用法完全相同，只有字形不同）可以根據使用相同的字頻。但異體字（字形不同，含意用法部分重疊）的字頻無法兩全。比如，「箇」和「個」，只用「箇」的人希望「箇」的字頻最起碼和「個」一樣高；但用「個」的人則希望「箇」只包含指示代詞「這」的義項，其字頻應該很低。

關於第一點，目前我的想法是使用OpenCC標準，再加之港臺異體字。缺點是部分異體字會缺失，例如《古籍印刷通用字規範字形表》的「槪」「旣」等字。這部分等OpenCC的異體字表整理出來後可能會有所改善。使用此方法我重新制定了字集過濾( #3 )。

第二點，依舊使用OpenCC標準，同你的思路一樣，藉助rime的碼表來設定異體字字頻，也包括一簡多繁的字。這點可行性有待驗證。

Feb 01 '23 04:02 ywxt