opencc-python
opencc-python copied to clipboard
一對多的問題
我試著用opencc將繁簡夾雜的文件全部轉為繁體,遇到一對多的問題, 例如 后 這個字,這個單字本身在繁體中就是有意義的, 所以轉換成 后 或者 後 都有道理,視前後文而定, 但opencc遇到這個單字單獨出現的時候卻無論如何都把他轉成 後, 是不是能夠增加一個模式,就是一對多的情況下,遇到phrase才進行轉換,否則略過? 例如:
后来,我買了"Whoo 后 漢方精萃純露甦活洗髮精 SPA Essence Shampoo"
可以轉換為:
後來,我買了"Whoo 后 漢方精萃純露甦活洗髮精 SPA Essence Shampoo"
更高词频的显然是“我買了Whoo後”,禁用掉单字恐怕并不合适
更高词频的显然是“我買了Whoo後”,禁用掉单字恐怕并不合适
"Whoo 后" 是一個韓國品牌,你不要亂改名。 而且我不是希望禁用單字,是希望有另一個模式。
这种特例除非支持本地dict否则难以实现吧