rime-huma icon indicating copy to clipboard operation
rime-huma copied to clipboard

Todo

Open ywxt opened this issue 2 years ago • 2 comments

目前的方案已經初步完成,但是還有很多問題。

  1. 能反映大陸用字的繁體字頻表很難找到,因此常有常用字簡碼被罕用字擠佔的情況。
  2. 與第一條相關,「國字表」包含很多古籍用字,但未包含大陸香港的常用字與異體字,這部分需要刪補。
  3. 詞表很爛,收了太多無意義詞,反倒某些常用詞丟失。

接下來目標:

  • [x] #2
  • [x] #3
  • [x] 調整詞表,可能需要重做
  • [x] #7
  • [ ] #5
  • [ ] #8
  • [ ] #16
  • [x] #15
  • [ ] #10 異體字開關

ywxt avatar Jan 31 '23 16:01 ywxt

能反映大陸用字的繁體字頻表很難找到

之前也碰到過這個問題,可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ,但是主要是簡化字的…… _(:з」∠)_

我目前用的辦法是,把簡繁字對兒放在一起算字頻,例如:F({東,东}) = F(東) + F(东)。最後這兩個字給予相同的權重 W(東) = W(东) = F({東, 东}) 即可。我的代碼。精細一點調整的話,還需要讓繁體字權重略大一點,不過我目前還沒有實現。

只在音碼上測試過這個方法(結果是沒有讀音加權有效),形碼上的效果不是很清楚,僅供參考。 _(:з」∠)_

ksqsf avatar Feb 01 '23 02:02 ksqsf

能反映大陸用字的繁體字頻表很難找到

之前也碰到過這個問題,可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ,但是主要是簡化字的…… (:з」∠)

我目前用的辦法是,把簡繁字對兒放在一起算字頻,例如:F({東,东}) = F(東) + F(东)。最後這兩個字給予相同的權重 W(東) = W(东) = F({東, 东}) 即可。我的代碼。精細一點調整的話,還需要讓繁體字權重略大一點,不過我目前還沒有實現。

只在音碼上測試過這個方法(結果是沒有讀音加權有效),形碼上的效果不是很清楚,僅供參考。 (:з」∠)

感謝關注。

這個分兩個問題。

第一個是應收哪些異體字。舉個例子,「爲」與「為」是一組常見異體字(異寫字),一般的使用者都會希望二者兼收。但「𠄔」作爲「幻」之隸定字,通常恐怕很難用到他。

第二個是異體字。或體(意義用法完全相同,只有字形不同)可以根據使用相同的字頻。但異體字(字形不同,含意用法部分重疊)的字頻無法兩全。比如,「箇」和「個」,只用「箇」的人希望「箇」的字頻最起碼和「個」一樣高;但用「個」的人則希望「箇」只包含指示代詞「這」的義項,其字頻應該很低。

關於第一點,目前我的想法是使用OpenCC標準,再加之港臺異體字。缺點是部分異體字會缺失,例如《古籍印刷通用字規範字形表》的「槪」「旣」等字。這部分等OpenCC的異體字表整理出來後可能會有所改善。使用此方法我重新制定了字集過濾( #3 )。

第二點,依舊使用OpenCC標準,同你的思路一樣,藉助rime的碼表來設定異體字字頻,也包括一簡多繁的字。這點可行性有待驗證。

ywxt avatar Feb 01 '23 04:02 ywxt