sgalal
sgalal
`" "` 不行,因為不區分左右引號。 `“ ”` 可以,只需修改詞庫即可,加入 `“` 到 `「`,`”` 到 `」` 兩條。 詞庫位置:
Any updates?
@BYVoid I can confirm this issue. ``` $ docker run -it continuumio/miniconda:latest /bin/bash ### in miniconda container ### $ printf "Open Chinese Convert 開放中文轉換\n%.0s" {1..50000} > /tmp/data_50k.in $ apt update...
可以把這些加入 `data/dictionary/TSPhrases.txt` 中
謝謝!歡迎 PR
@BYVoid > 可以單獨增加一個HKVariantsRev.txt,只保留有歧義的部分即可,類似於TWVariantsRevPhrases.txt。 我增加了 `HKVariantsRev.txt`,內容如下: ``` 台 臺 台 吃 喫 吃 才 才 纔 核 核 覈 歎 歎 嘆 煙 煙 菸 胄 胄 冑 裊 嫋 裊...
關於「𫈴」字我補充一下,該字位於擴展 C 區,經查詢 Unicode 相關文檔可知該字是台灣提交的,來源為 CNS 11643 中文標準交換碼。在 CNS 11643 中文全字庫搜索可知,該字讀音為 ㄗㄤˋ/zàng,來源為內政部户政用字。因此該字與「蕟」是不一樣的。 - 擴展 C 區: - CNS 11643 中文全字庫搜索:
@BYVoid 想改但是發現加入「計算機 => 電腦」的話反過來所有「電腦」都會被轉為「計算機」,就會出現問題。
`s2twp` 根據設計應該分為兩步,即先執行 `s2t`,再執行 `t2twp`。 然而,經查看 [`s2twp.json`](https://github.com/BYVoid/OpenCC/blob/7a60db1/data/config/s2twp.json#L7) 發現,現時 OpenCC 兩個步驟均是以 `STPhrases` 為詞典分詞。`STPhrases` 沒有「芯片」但有「片面」,所以「片面」被分開,使得轉換出錯。 一個快速的修復方法是將「芯片」加入 `STPhrases.txt`。由於 OpenCC 採用的正向最長分詞算法,「芯片」會優先於「片面」被分開,從而解決這一問題。 根本的解決方法是將 `s2twp` 實現為完全與「先執行 `s2t`,再執行 `t2twp`」等價。這種方法的一個簡單的測試如下(採自 #476): ```sh $ cat > t2twp.json { "name": "Traditional...
Related: #475