OpenCC icon indicating copy to clipboard operation
OpenCC copied to clipboard

[用語轉換] "OO的士兵" 不應被轉換為 "OO計程車兵"

Open a0000778 opened this issue 2 years ago • 4 comments

如 "城堡的士兵" 不應被轉換為 "城堡計程車兵" "士兵的士氣" 不應被轉換為 "士兵計程車氣"

轉換設定: 原文=簡中 目標=繁中 異體字轉換=台灣標準 地域用詞轉換=台灣模式

a0000778 avatar Feb 25 '22 10:02 a0000778

菩薩慈悲:竊意以為繁簡轉換若沒有大數據與人工智能(還要夠效能),恐怕很難有飛躍、長足地長進。感恩感恩 南無阿彌陀佛 可是其原理,應該與好的翻譯相差不遠,當亦可翹足而待也。阿彌陀佛

oscarsun72 avatar Feb 26 '22 14:02 oscarsun72

@oscarsun72 其实在算法上:先对句子做分词,再各自进行简繁词典转换,就能大大减少这类无脑替换的错误。 目前中文分词的准确率已经非常高了,97%以上没问题。。本例中的语句完全能正确分词。

yaleimeng avatar Apr 15 '22 07:04 yaleimeng

@oscarsun72 ……就能大大减少这类无脑替换的错误。 目前中文分词的准确率已经非常高了,97%以上没问题。。本例中的语句完全能正确分词。 有腦與電腦何作能為無腦的電腦玉女於成,是即先覺覺後覺也。感恩感恩 讚歎讚歎 南無阿彌陀佛

oscarsun72 avatar Apr 16 '22 01:04 oscarsun72

我開發了 OpenCC 的下一代簡繁轉換工具:StarCC,解決了此類問題。

OpenCC:

$ echo 他们是勇敢的士兵 | opencc -c s2twp
他們是勇敢計程車兵

StarCC:

>>> from StarCC import PresetConversion
>>> convert = PresetConversion(src='cn', dst='tw', with_phrase=True)
>>> print(convert('他们是勇敢的士兵'))
他們是勇敢的士兵

ayaka14732 avatar Apr 26 '22 05:04 ayaka14732