OpenCC
OpenCC copied to clipboard
[用語轉換] "OO的士兵" 不應被轉換為 "OO計程車兵"
如 "城堡的士兵" 不應被轉換為 "城堡計程車兵" "士兵的士氣" 不應被轉換為 "士兵計程車氣"
轉換設定: 原文=簡中 目標=繁中 異體字轉換=台灣標準 地域用詞轉換=台灣模式
菩薩慈悲:竊意以為繁簡轉換若沒有大數據與人工智能(還要夠效能),恐怕很難有飛躍、長足地長進。感恩感恩 南無阿彌陀佛 可是其原理,應該與好的翻譯相差不遠,當亦可翹足而待也。阿彌陀佛
@oscarsun72 其实在算法上:先对句子做分词,再各自进行简繁词典转换,就能大大减少这类无脑替换的错误。 目前中文分词的准确率已经非常高了,97%以上没问题。。本例中的语句完全能正确分词。
@oscarsun72 ……就能大大减少这类无脑替换的错误。 目前中文分词的准确率已经非常高了,97%以上没问题。。本例中的语句完全能正确分词。 有腦與電腦何作能為無腦的電腦玉女於成,是即先覺覺後覺也。感恩感恩 讚歎讚歎 南無阿彌陀佛
我開發了 OpenCC 的下一代簡繁轉換工具:StarCC,解決了此類問題。
OpenCC:
$ echo 他们是勇敢的士兵 | opencc -c s2twp
他們是勇敢計程車兵
StarCC:
>>> from StarCC import PresetConversion
>>> convert = PresetConversion(src='cn', dst='tw', with_phrase=True)
>>> print(convert('他们是勇敢的士兵'))
他們是勇敢的士兵