OpenCC icon indicating copy to clipboard operation
OpenCC copied to clipboard

Conversion between Traditional and Simplified Chinese

Results 213 OpenCC issues
Sort by recently updated
recently updated
newest added

源字符串:`字节跳动` 期待的目标字符串:`字節跳動` 实际得到的结果:`位元組跳動` 截屏: ![Open位元組跳動CC](https://github.com/BYVoid/OpenCC/assets/42690037/ab3028ad-8368-4997-adce-0cd9255f6f99) 参考: ![zh-Hant-TW-wikipedia](https://github.com/BYVoid/OpenCC/assets/42690037/d6fbeeab-5e87-44f5-911e-3dd9481222c9) --- 其他信息技术企业名称因包含了专有名词而被误转换的: * #865 (摩尔线程)

《簡化字總表》和《通用規範漢字表》都沒有定義這種轉換,目前的ST和TS表也無此定義。

《簡化字總表》和《通用規範漢字表》都沒有定義這種轉換,目前的ST和TS表也無此定義。

同檔案下即有 `蘋 苹 𬞟`,明顯重複且錯誤。

「著」與「着」皆為 OpenCC 正體字,且二者皆無法完全代換為另一者,並非繁簡關係。

按照 `variant.txt` 的 `幷 并 幷`,顯示「幷」為正體,「并」為其異體;而按照 `ts_multi.txt` 的 `并 並 併 并`,顯示「并」為正體,「幷」非正體,二者是矛盾的。 應該要嘛是取「并」為正體,要嘛是取「幷」為正體,要嘛是二者各自皆為正體。 根據目前查幾個字典的結果看來,「幷」是比較古的字形,比較偏向作為地名、人名,意義較狹。「并」是比較新的字形,又恰好是中國標準的簡化字,因此更常作為「並」、「併」的簡化字使用。但大體而言,二者意義幾乎是相等且可以互相代換的,似乎不太適合都認定為正體。 可能要做個決定如何處理二者:如果取「并」為正體,則 `variant.txt` 要修改;如果取「幷」為正體,則 `ts_multi.txt` 和 `STCharacters.txt`、`TSCharacters.txt` 都要修改;如果二者皆取為正體,則 `variant.txt`、`ts_multi.txt`、`STCharacters.txt`、`TSCharacters.txt` 都要修改。以和既有詞表相容的角度來看,取「并」為正體是修改量最小的,但不一定最「正確」就是。

承 #613。目前的 text 詞典若輸入以下內容: ``` 輸入詞\t輸出詞\t註解 ``` 轉換時會把 `輸入詞` 轉為 `輸出詞\t註解`。 這既不直覺也不方便: * 直覺上來說,既然是以`\t`分隔的資料,第二欄就不應該再把`\t`視為資料內容。 * 方便性上來說,允許寫入第二個 `\t` 以後的資料(而不影響實際轉換)讓開發者可以寫入一些必要的註解。如要引進來自其他工具的資料,或輸出至其他工具,也比較不容易發生不可預期的問題。 希望各位大老可以考慮下。

tw2sp.json中将"字母" -> "本母" 想请教下为什么做这种转换,我没有找到相关的资料,谢谢!

``` [ins] In [1]: import opencc --------------------------------------------------------------------------- OSError Traceback (most recent call last) Cell In[1], line 1 ----> 1 import opencc File /opt/homebrew/Caskroom/miniconda/base/lib/python3.11/site-packages/opencc.py:24 22 libopencc = CDLL(_libopenccfile, use_errno=True) 23 else:...

OpenCC 有內建一個 `opencc_phrase_extract` 工具,因為找不到文件,不太確定用法。 我嘗試用以下命令分析 `test\benchmark\zuozhuan.txt` 檔案,得到以下詞頻: ```sh opencc_phrase_extract -o G:\zuozhuan.stats.txt -- G:\zuozhuan.txt ``` ```txt 请求 450 -7.92801 6.196 8.46437 4.06399 4.40038 进攻 450 -7.92801 6.32893 7.79145 3.96637 3.82508 自己...