OpenCC
OpenCC copied to clipboard
新增日本新字體。
包括唯一標準的日本字形(如「粤」而不是「粵」,「隣」而不是「鄰」。「粵」、「鄰」在《大辞林》皆查無此字)以及擴張新字體(如被新聞界使用的「𦜝」,標準字形是「臍」)。
@sgalal 你好,
我檢查了一下相關問題,
異體字
貮 貳
應該予以刪除。
龝 穐
是因爲「龝」是「秋」的異體字嗎?如果是這個原因,應刪除。
「卒」及其孳乳字
日本新字體對該字的處理比較奇怪:孳乳字(如「碎」「醉」)一併簡化(如「砕」「酔」)。雖然「卒」作「卆」例亦有,不過確實以「卒」爲通行用法(68%,見「卆」と「卒」),故考慮刪除,而其他孳乳字如 埣 𡉻
予以保留。
「𫈴」字形
IPA明朝中「𫈴」(CJK UNIFIED IDEOGRAPH-2B234)的字形是
GlyphWiki 卻錄有
⿱艹発
及 ⿳艹癶开
兩種寫法,也並無分別 Unicode 碼位(⿱艹発
作 u2b234-ue0100
)。我傾向認爲 ⿱癶开
是 発
在某些字體使用錯誤的字形構成描述而做出的誤形/錯誤實現,並不影響 u2b234
這個碼位代表「蕟」的擴張新字體,因而不應刪除。
關於「𫈴」字我補充一下,該字位於擴展 C 區,經查詢 Unicode 相關文檔可知該字是台灣提交的,來源為 CNS 11643 中文標準交換碼。在 CNS 11643 中文全字庫搜索可知,該字讀音為 ㄗㄤˋ/zàng,來源為內政部户政用字。因此該字與「蕟」是不一樣的。
- 擴展 C 區:https://www.unicode.org/charts/PDF/U2A700.pdf
- CNS 11643 中文全字庫搜索:https://www.cns11643.gov.tw/wordView.jsp?ID=869492
@sgalal 原來如此!謝謝,我已修改。
我大致看了基本可行,能說明一下這些字收集的來源嗎?
@BYVoid 這些增補系從我個人在Rime使用的轉換碼表去重而來。其主要來源是Rime提供的nippon_variants
。另有我從 ids 收集的一些字,竝不完全。
就我目前查到的資料,所謂擴張新字體是類似類推簡化字的字,並非官方明訂,但官方也未明確禁止使用。
我想,應該要考察日本實際使用情況,如果幾乎所有場合使用擴張新字體都是壓倒性的多數,可以直接加入。如果有為數不少的場合(例如正式場合用字等)不使用擴張新字體,或許擴張新字體應該獨立成另一個轉換表,並且把轉換方案分成「舊字體轉新字體」及「舊字體轉新字體(含擴張)」。
關於ByVoid提到應避免SMP用字的議題,我認為也需要考察,如果日本幾乎所有使用擴張新字體的場合都會使用那些SMP用字,那就應該加入;幾乎所有使用擴張新字體的場合都不使用,就不加入。如果有時會用有時不用,可以獨立成另一個表。
在尚未考察的當下,或萬一考察有其困難,我個人傾向把擴張新字體另立一表,並且包含所有 SMP 字,也就是「要嘛就不用擴張,要嘛就盡可能擴張」的概念。如果有人要用擴張新字體又不想用 SMP 字,那就勞駕他自己修改碼表了XD(或是等有人實做 #217 的方案)。