OpenCC icon indicating copy to clipboard operation
OpenCC copied to clipboard

新增日本新字體。

Open edward-martyr opened this issue 4 years ago • 6 comments

包括唯一標準的日本字形(如「粤」而不是「」,「隣」而不是「」。「」、「」在《大辞林》皆查無此字)以及擴張新字體(如被新聞界使用的「𦜝」,標準字形是「」)。

edward-martyr avatar Feb 21 '20 07:02 edward-martyr

@sgalal 你好,

我檢查了一下相關問題,

異體字 貮 貳 應該予以刪除。 龝 穐 是因爲「龝」是「秋」的異體字嗎?如果是這個原因,應刪除。

「卒」及其孳乳字 日本新字體對該字的處理比較奇怪:孳乳字(如「碎」「醉」)一併簡化(如「砕」「酔」)。雖然「卒」作「卆」例亦有,不過確實以「卒」爲通行用法(68%,見「卆」と「卒」),故考慮刪除,而其他孳乳字如 埣 𡉻 予以保留。

「𫈴」字形 IPA明朝中「𫈴」(CJK UNIFIED IDEOGRAPH-2B234)的字形是 𫈴 GlyphWiki 卻錄有 ⿱艹発⿳艹癶开 兩種寫法,也並無分別 Unicode 碼位(⿱艹発u2b234-ue0100)。我傾向認爲 ⿱癶开 在某些字體使用錯誤的字形構成描述而做出的誤形/錯誤實現,並不影響 u2b234 這個碼位代表「蕟」的擴張新字體,因而不應刪除。

edward-martyr avatar Feb 23 '20 03:02 edward-martyr

關於「𫈴」字我補充一下,該字位於擴展 C 區,經查詢 Unicode 相關文檔可知該字是台灣提交的,來源為 CNS 11643 中文標準交換碼。在 CNS 11643 中文全字庫搜索可知,該字讀音為 ㄗㄤˋ/zàng,來源為內政部户政用字。因此該字與「蕟」是不一樣的。

sgalal avatar Feb 24 '20 10:02 sgalal

@sgalal 原來如此!謝謝,我已修改。

edward-martyr avatar Feb 25 '20 04:02 edward-martyr

我大致看了基本可行,能說明一下這些字收集的來源嗎?

BYVoid avatar Mar 27 '20 15:03 BYVoid

@BYVoid 這些增補系從我個人在Rime使用的轉換碼表去重而來。其主要來源是Rime提供的nippon_variants。另有我從 ids 收集的一些字,竝不完全。

edward-martyr avatar Apr 03 '20 03:04 edward-martyr

就我目前查到的資料,所謂擴張新字體是類似類推簡化字的字,並非官方明訂,但官方也未明確禁止使用。

我想,應該要考察日本實際使用情況,如果幾乎所有場合使用擴張新字體都是壓倒性的多數,可以直接加入。如果有為數不少的場合(例如正式場合用字等)不使用擴張新字體,或許擴張新字體應該獨立成另一個轉換表,並且把轉換方案分成「舊字體轉新字體」及「舊字體轉新字體(含擴張)」。

關於ByVoid提到應避免SMP用字的議題,我認為也需要考察,如果日本幾乎所有使用擴張新字體的場合都會使用那些SMP用字,那就應該加入;幾乎所有使用擴張新字體的場合都不使用,就不加入。如果有時會用有時不用,可以獨立成另一個表。

在尚未考察的當下,或萬一考察有其困難,我個人傾向把擴張新字體另立一表,並且包含所有 SMP 字,也就是「要嘛就不用擴張,要嘛就盡可能擴張」的概念。如果有人要用擴張新字體又不想用 SMP 字,那就勞駕他自己修改碼表了XD(或是等有人實做 #217 的方案)。

danny0838 avatar Jun 26 '20 07:06 danny0838