OpenCC
OpenCC copied to clipboard
取消轉換異體字「垻」
《通用規範漢字表》https://zh.wikisource.org/wiki/%E9%80%9A%E7%94%A8%E8%A7%84%E8%8C%83%E6%B1%89%E5%AD%97%E8%A1%A8 從分,因此 OpenCC 從分。
垻為平地之意,為西南地區的方言,也常見於西南地區的地名。 壩是一種水利工程。
“垻”字和“壩”字有什么区别? - 波羅北久思伽類思的回答 - 知乎 https://www.zhihu.com/question/63646078/answer/211804485
若要改進,不應該取消「垻」,而應該在 https://github.com/BYVoid/OpenCC/blob/master/data/scheme/st_multi.txt 中加入這兩字的辨析。
@ayaka14732 這不是從不從分的問題。「壩」是正字,「垻」是俗字,兩字合併簡化為「坝」。但「壩」和「垻」是全等異體字。見異體字字典。你引的知乎回答無根無據。維基上已有論證:
總督哈占檄思克赴援,思克率師道阿壩紅水蘆塘至索橋,結筏渡河,克靖遠,附近諸城堡悉下。 ——《清史稿·卷二百五十五·列傳四十二》
而且《通用規範漢字表》只能用作CN簡體的規範,不能且不該以它為繁體乃至TW/HK的規範。少説有十幾二十組合併簡化,明確是不同正字,應該從分的,這個表裏卻一股腦塞到異體字裏面。所以絲毫不用奇怪它會把兩個全等異體字誤植為兩個不同的正字
@groverlynn 不是這樣的。至於哪些是異體字、哪些不是異體字,這個在不同的字典裏可能是不一樣的。要是 OpenCC 對所有意見都加以考慮,那麼今天我舉出例子説明不是異體字,明天又有人舉出例子説明是異體字,那 OpenCC 詞表就亂套了。所以 OpenCC 用字遵循「從分不從合」原則,只要大陸/香港/台灣的官方標準中有一個從分,那麼 OpenCC 用字就從分,因為這樣在程式的實作上可以達到最準確的轉換效果。這裏的「壩」、「垻」二字就是由於大陸的《通用規範漢字表》從分,所以 OpenCC 用字就將其分開,而不視作正字/俗字的關係。
那麼就改成在TW和HK標準中只用「壩」