OpenCC icon indicating copy to clipboard operation
OpenCC copied to clipboard

取消轉換異體字「垻」

Open groverlynn opened this issue 3 years ago • 3 comments

groverlynn avatar Nov 20 '22 07:11 groverlynn

《通用規範漢字表》https://zh.wikisource.org/wiki/%E9%80%9A%E7%94%A8%E8%A7%84%E8%8C%83%E6%B1%89%E5%AD%97%E8%A1%A8 從分,因此 OpenCC 從分。

垻為平地之意,為西南地區的方言,也常見於西南地區的地名。 壩是一種水利工程。

“垻”字和“壩”字有什么区别? - 波羅北久思伽類思的回答 - 知乎 https://www.zhihu.com/question/63646078/answer/211804485

若要改進,不應該取消「垻」,而應該在 https://github.com/BYVoid/OpenCC/blob/master/data/scheme/st_multi.txt 中加入這兩字的辨析。

@ayaka14732 這不是從不從分的問題。「壩」是正字,「垻」是俗字,兩字合併簡化為「坝」。但「壩」和「垻」是全等異體字。見異體字字典。你引的知乎回答無根無據。維基上已有論證:

總督哈占檄思克赴援,思克率師道阿壩紅水蘆塘至索橋,結筏渡河,克靖遠,附近諸城堡悉下。 ——《清史稿·卷二百五十五·列傳四十二》

而且《通用規範漢字表》只能用作CN簡體的規範,不能且不該以它為繁體乃至TW/HK的規範。少説有十幾二十組合併簡化,明確是不同正字,應該從分的,這個表裏卻一股腦塞到異體字裏面。所以絲毫不用奇怪它會把兩個全等異體字誤植為兩個不同的正字

groverlynn avatar Nov 22 '22 07:11 groverlynn

@groverlynn 不是這樣的。至於哪些是異體字、哪些不是異體字,這個在不同的字典裏可能是不一樣的。要是 OpenCC 對所有意見都加以考慮,那麼今天我舉出例子説明不是異體字,明天又有人舉出例子説明是異體字,那 OpenCC 詞表就亂套了。所以 OpenCC 用字遵循「從分不從合」原則,只要大陸/香港/台灣的官方標準中有一個從分,那麼 OpenCC 用字就從分,因為這樣在程式的實作上可以達到最準確的轉換效果。這裏的「壩」、「垻」二字就是由於大陸的《通用規範漢字表》從分,所以 OpenCC 用字就將其分開,而不視作正字/俗字的關係。

ayaka14732 avatar Nov 22 '22 13:11 ayaka14732

那麼就改成在TW和HK標準中只用「壩」

groverlynn avatar Nov 22 '22 19:11 groverlynn