OpenCC 新增日本新字體。

新增日本新字體。

Open edward-martyr opened this issue 4 years ago • 6 comments

包括唯一標準的日本字形（如「粤」而不是「粵」，「隣」而不是「鄰」。「粵」、「鄰」在《大辞林》皆查無此字）以及擴張新字體（如被新聞界使用的「𦜝」，標準字形是「臍」）。

@sgalal 你好，

我檢查了一下相關問題，

異體字 貮貳 應該予以刪除。 龝穐 是因爲「龝」是「秋」的異體字嗎？如果是這個原因，應刪除。

「卒」及其孳乳字 日本新字體對該字的處理比較奇怪：孳乳字（如「碎」「醉」）一併簡化（如「砕」「酔」）。雖然「卒」作「卆」例亦有，不過確實以「卒」爲通行用法（68%，見「卆」と「卒」），故考慮刪除，而其他孳乳字如 埣𡉻 予以保留。

「𫈴」字形 IPA明朝中「𫈴」（CJK UNIFIED IDEOGRAPH-2B234）的字形是 GlyphWiki 卻錄有 ⿱艹発 及 ⿳艹癶开 兩種寫法，也並無分別 Unicode 碼位（⿱艹発 作 u2b234-ue0100）。我傾向認爲 ⿱癶开 是 発 在某些字體使用錯誤的字形構成描述而做出的誤形/錯誤實現，並不影響 u2b234 這個碼位代表「蕟」的擴張新字體，因而不應刪除。

Feb 23 '20 03:02 edward-martyr

關於「𫈴」字我補充一下，該字位於擴展 C 區，經查詢 Unicode 相關文檔可知該字是台灣提交的，來源為 CNS 11643 中文標準交換碼。在 CNS 11643 中文全字庫搜索可知，該字讀音為ㄗㄤˋ/zàng，來源為內政部户政用字。因此該字與「蕟」是不一樣的。

擴展 C 區：https://www.unicode.org/charts/PDF/U2A700.pdf
CNS 11643 中文全字庫搜索：https://www.cns11643.gov.tw/wordView.jsp?ID=869492

Feb 24 '20 10:02 sgalal

@sgalal 原來如此！謝謝，我已修改。

Feb 25 '20 04:02 edward-martyr

我大致看了基本可行，能說明一下這些字收集的來源嗎？

Mar 27 '20 15:03 BYVoid

@BYVoid 這些增補系從我個人在Rime使用的轉換碼表去重而來。其主要來源是Rime提供的nippon_variants。另有我從 ids 收集的一些字，竝不完全。

Apr 03 '20 03:04 edward-martyr

就我目前查到的資料，所謂擴張新字體是類似類推簡化字的字，並非官方明訂，但官方也未明確禁止使用。

我想，應該要考察日本實際使用情況，如果幾乎所有場合使用擴張新字體都是壓倒性的多數，可以直接加入。如果有為數不少的場合（例如正式場合用字等）不使用擴張新字體，或許擴張新字體應該獨立成另一個轉換表，並且把轉換方案分成「舊字體轉新字體」及「舊字體轉新字體（含擴張）」。

關於ByVoid提到應避免SMP用字的議題，我認為也需要考察，如果日本幾乎所有使用擴張新字體的場合都會使用那些SMP用字，那就應該加入；幾乎所有使用擴張新字體的場合都不使用，就不加入。如果有時會用有時不用，可以獨立成另一個表。

在尚未考察的當下，或萬一考察有其困難，我個人傾向把擴張新字體另立一表，並且包含所有 SMP 字，也就是「要嘛就不用擴張，要嘛就盡可能擴張」的概念。如果有人要用擴張新字體又不想用 SMP 字，那就勞駕他自己修改碼表了XD（或是等有人實做 #217 的方案）。

Jun 26 '20 07:06 danny0838

OpenCC OpenCC copied to clipboard

新增日本新字體。

OpenCC
OpenCC copied to clipboard