discussion icon indicating copy to clipboard operation
discussion copied to clipboard

專用於 OCR 修正的轉換器?

Open n6333373 opened this issue 6 years ago • 1 comments

  • 最近發現有個簡體字幕裡把 打成了 ,應該是來自 OCR 的錯誤。 由於 極度不常用,繁化時強行轉換為 不會時常造成問題。

  • 類似問題在繁體字幕中也有 被打成了 ,並且可能不容易被看出來。

上述兩者現歸類於 錯別字修正 模組中。


  • 英文中則有 i (小寫I) / l(小寫L) / I(大寫i) / 1(數字1) 混用。

例如:子音 + l(小寫L) + 子音 應可轉換為 子音 + i(小寫I) + 子音 ,英文因為發音的關係,不會三個子音(並且中間是小寫L)連在一起。

上述則未實裝。


我幾乎不做 OCR 的工作,因此不知道 OCR 有那些常見的錯誤,如果自動修正一些常見錯誤應該會很有用(?)

n6333373 avatar Mar 11 '18 12:03 n6333373