OpenCC icon indicating copy to clipboard operation
OpenCC copied to clipboard

收錄歷史性轉換表

Open danny0838 opened this issue 3 years ago • 8 comments

實做 #502,主要還是用於處理「硷=>鹼」(#440)。

「复=>覆」應該可以考慮移到這個表。

danny0838 avatar Jul 14 '20 06:07 danny0838

我不太理解這個表,能否解釋一下左右兩列分別是什麼,以及這個表可能的用途?

BYVoid avatar Jul 14 '20 06:07 BYVoid

就是像 #440 所提到的,比如以前的簡化字政策要求「鹼」轉成「硷」,因此現在可能存在一些早期生產、帶有「硷」字的簡體文本,若用現行的簡轉繁方案只會把「硷」轉成「礆」,而不是期望的「鹼」。此時可以在簡轉繁方案加掛這個轉換表達到目的。

danny0838 avatar Jul 14 '20 06:07 danny0838

左列是現在已經不再用的「簡化字」?

看起來並不像的簡化。

BYVoid avatar Jul 14 '20 09:07 BYVoid

詳見 #502,有些應該是中國民間比較常用的異體字,「垵<=>埯」「鼗<=>鞀」「檾<=>苘」都是異體字,也都是 MS Word 和以前的 OpenCC 會做的轉換。

danny0838 avatar Jul 14 '20 11:07 danny0838

這些轉換應該是OpenCC早期從起來不嚴謹的來源繼承得來,現在看來可以選擇完全不轉換。「硷」和其他的不太一樣。

BYVoid avatar Jul 15 '20 04:07 BYVoid

就是因為預設轉換方案不需要轉換,但特定情況可能有需求,所以才選擇另立一個詞典。

「硷」的另一個選擇就是直接加入正式的簡轉繁字典,之前 #440 就是這樣提案的。如果接受該做法,這邊可以刪掉「硷」。

「垵<=>埯」「鼗<=>鞀」「檾<=>苘」畢竟是反映不同地區的習慣用字不同,因此另一個選擇是加到地區慣用字或慣用詞詞典。不過我認為在預設的轉換方案加這幾個字還是會有爭議,所以建議用另立詞典的方式,讓需要的人可以參考、選擇性地使用。

danny0838 avatar Jul 15 '20 06:07 danny0838

「垵<=>埯」「鼗<=>鞀」「檾<=>苘」這類轉換的標準過於模糊了,很難找到有此類轉換需求的使用者。我傾向於把它們加入異體字規範化的範疇中。

關於異體字規範化,我之前提到過好幾次,目前想法還不夠成熟,但是基本的思路是明確定義OpenCC的用字標準。目前的STCharacters.txt右邊一列的「OpenCC繁體」,如果排除掉一對多的情況,就是OpenCC的用字標準。

類似的,爲了更好地實現非標準化的「繁體」轉簡體或者其他地區標準繁體,需要定義一個規範轉換詞典,即先把各種異體字標準化,再進行詞的轉換。

BYVoid avatar Jul 16 '20 05:07 BYVoid

「垵<=>埯」「鼗<=>鞀」「檾<=>苘」這類轉換的標準過於模糊了,很難找到有此類轉換需求的使用者。我傾向於把它們加入異體字規範化的範疇中。

這有點像前面提到的「姊=>姐」,為了更符合當地用字習慣,確實會有這樣的需求。

而即使先不論「垵<=>埯」「鼗<=>鞀」「檾<=>苘」之類,「硷=>鹼」你打算怎麼處理?「硷」很明確是簡化字,並不適合作為異體字規範吧?

danny0838 avatar Jul 16 '20 05:07 danny0838