Todo
目前的方案已經初步完成,但是還有很多問題。
- 能反映大陸用字的繁體字頻表很難找到,因此常有常用字簡碼被罕用字擠佔的情況。
- 與第一條相關,「國字表」包含很多古籍用字,但未包含大陸香港的常用字與異體字,這部分需要刪補。
- 詞表很爛,收了太多無意義詞,反倒某些常用詞丟失。
接下來目標:
- [x] #2
- [x] #3
- [x] 調整詞表,可能需要重做
- [x] #7
- [ ] #5
- [ ] #8
- [ ] #16
- [x] #15
- [ ] #10 異體字開關
能反映大陸用字的繁體字頻表很難找到
之前也碰到過這個問題,可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ,但是主要是簡化字的…… _(:з」∠)_
我目前用的辦法是,把簡繁字對兒放在一起算字頻,例如:F({東,东}) = F(東) + F(东)。最後這兩個字給予相同的權重 W(東) = W(东) = F({東, 东}) 即可。我的代碼。精細一點調整的話,還需要讓繁體字權重略大一點,不過我目前還沒有實現。
只在音碼上測試過這個方法(結果是沒有讀音加權有效),形碼上的效果不是很清楚,僅供參考。 _(:з」∠)_
能反映大陸用字的繁體字頻表很難找到
之前也碰到過這個問題,可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ,但是主要是簡化字的…… (:з」∠)
我目前用的辦法是,把簡繁字對兒放在一起算字頻,例如:F({東,东}) = F(東) + F(东)。最後這兩個字給予相同的權重 W(東) = W(东) = F({東, 东}) 即可。我的代碼。精細一點調整的話,還需要讓繁體字權重略大一點,不過我目前還沒有實現。
只在音碼上測試過這個方法(結果是沒有讀音加權有效),形碼上的效果不是很清楚,僅供參考。 (:з」∠)
感謝關注。
這個分兩個問題。
第一個是應收哪些異體字。舉個例子,「爲」與「為」是一組常見異體字(異寫字),一般的使用者都會希望二者兼收。但「𠄔」作爲「幻」之隸定字,通常恐怕很難用到他。
第二個是異體字。或體(意義用法完全相同,只有字形不同)可以根據使用相同的字頻。但異體字(字形不同,含意用法部分重疊)的字頻無法兩全。比如,「箇」和「個」,只用「箇」的人希望「箇」的字頻最起碼和「個」一樣高;但用「個」的人則希望「箇」只包含指示代詞「這」的義項,其字頻應該很低。
關於第一點,目前我的想法是使用OpenCC標準,再加之港臺異體字。缺點是部分異體字會缺失,例如《古籍印刷通用字規範字形表》的「槪」「旣」等字。這部分等OpenCC的異體字表整理出來後可能會有所改善。使用此方法我重新制定了字集過濾( #3 )。
第二點,依舊使用OpenCC標準,同你的思路一樣,藉助rime的碼表來設定異體字字頻,也包括一簡多繁的字。這點可行性有待驗證。