ytenx icon indicating copy to clipboard operation
ytenx copied to clipboard

《上古音系》中有GB 18030轉換遺存的PUA碼點

Open Artoria2e5 opened this issue 8 years ago • 2 comments

我在去 whatwg/encoding#27 划水的時候,使用 Google 搜尋了一下“”這個PUA字元,結果發現了 http://ytenx.org/dciangx/cjeng// 這裡。

由於 PUA 字元的臨時本質和 Unicode 字元屬性資料的缺失,建議還是套用我在維基百科彙編的 PUA 對應,換成早在 Unicode 4.1 就有的這些正式字元。對於連結相容性,可以考慮假定請求路徑的 PUA 字元均為 GB 轉換所致,全文替換後正常處理。

Artoria2e5 avatar Sep 12 '16 03:09 Artoria2e5

不好意思,時隔多年。請問對應的正確字符是?

BYVoid avatar Mar 27 '20 14:03 BYVoid

有 24 个要换,见 https://www.unicode.org/L2/L2006/06394-gb18030-2005.txt 。处理完之后建议找一下 [\uE700-\uE800] ,还有的话应该是 GBK 残留,可以按照维基百科的私有字符对应表处理。

Artoria2e5 avatar Mar 28 '20 19:03 Artoria2e5