discussion
discussion copied to clipboard
專用於 OCR 修正的轉換器?
-
最近發現有個簡體字幕裡把
开
打成了幵
,應該是來自 OCR 的錯誤。 由於幵
極度不常用,繁化時強行轉換為開
不會時常造成問題。 -
類似問題在繁體字幕中也有
千
被打成了干
,並且可能不容易被看出來。
上述兩者現歸類於 錯別字修正
模組中。
- 英文中則有
i
(小寫I) /l
(小寫L) /I
(大寫i) /1
(數字1) 混用。
例如:子音 + l(小寫L) + 子音
應可轉換為 子音 + i(小寫I) + 子音
,英文因為發音的關係,不會三個子音(並且中間是小寫L)連在一起。
上述則未實裝。
我幾乎不做 OCR 的工作,因此不知道 OCR 有那些常見的錯誤,如果自動修正一些常見錯誤應該會很有用(?)