sgalal comments

Results 50 comments of


                                            sgalal

How to convert the pair of mark " " to 「」

`" "` 不行，因為不區分左右引號。 `“ ”` 可以，只需修改詞庫即可，加入 `“` 到 `「`，`”` 到 `」` 兩條。詞庫位置：

界面多字体支持

Any updates?

Converting speed slow since ver.1.1.x

@BYVoid I can confirm this issue. ``` $ docker run -it continuumio/miniconda:latest /bin/bash ### in miniconda container ### $ printf "Open Chinese Convert 開放中文轉換\n%.0s" {1..50000} > /tmp/data_50k.in $ apt update...

徐乾學 should be converted to 徐乾学，王汎森 should not be converted to 王泛森

可以把這些加入 `data/dictionary/TSPhrases.txt` 中

s2t 「托」相關詞彙補充

謝謝！歡迎 PR

程序自動生成的 HKVariantsRev.txt 不能處理「一香港繁對多 OpenCC 繁」

@BYVoid > 可以單獨增加一個HKVariantsRev.txt，只保留有歧義的部分即可，類似於TWVariantsRevPhrases.txt。我增加了 `HKVariantsRev.txt`，內容如下： ``` 台臺台吃喫吃才才纔核核覈歎歎嘆煙煙菸胄胄冑裊嫋裊...

新增日本新字體。

關於「𫈴」字我補充一下，該字位於擴展 C 區，經查詢 Unicode 相關文檔可知該字是台灣提交的，來源為 CNS 11643 中文標準交換碼。在 CNS 11643 中文全字庫搜索可知，該字讀音為ㄗㄤˋ/zàng，來源為內政部户政用字。因此該字與「蕟」是不一樣的。 - 擴展 C 區： - CNS 11643 中文全字庫搜索：

计算机繁体应该翻译成電腦，软件应该翻译成軟體

@BYVoid 想改但是發現加入「計算機 => 電腦」的話反過來所有「電腦」都會被轉為「計算機」，就會出現問題。

在 s2twp 下，"芯片面积" 的翻譯問題

`s2twp` 根據設計應該分為兩步，即先執行 `s2t`，再執行 `t2twp`。然而，經查看 [`s2twp.json`](https://github.com/BYVoid/OpenCC/blob/7a60db1/data/config/s2twp.json#L7) 發現，現時 OpenCC 兩個步驟均是以 `STPhrases` 為詞典分詞。`STPhrases` 沒有「芯片」但有「片面」，所以「片面」被分開，使得轉換出錯。一個快速的修復方法是將「芯片」加入 `STPhrases.txt`。由於 OpenCC 採用的正向最長分詞算法，「芯片」會優先於「片面」被分開，從而解決這一問題。根本的解決方法是將 `s2twp` 實現為完全與「先執行 `s2t`，再執行 `t2twp`」等價。這種方法的一個簡單的測試如下（採自 #476）： ```sh $ cat > t2twp.json { "name": "Traditional...

在 s2twp 下，"芯片面积" 的翻譯問題

Related: #475