PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

新增生僻字模型

Open shiyutang opened this issue 1 year ago • 5 comments

背景

经过需求征集https://github.com/PaddlePaddle/PaddleOCR/issues/10334 和每周技术研讨会 https://github.com/PaddlePaddle/PaddleOCR/issues/10223 讨论,我们确定了新增生僻字模型的任务。

解决步骤

  1. 替换现有字典txt为扩充《通用规范汉字表》的字典。
  2. 在现有数据集上通过数据合成copy paste等方式实现语料的平衡,并重新训练PPOCRV3的检测和识别模型。
  3. 对比训练后模型在普通文字和生僻字上的检测、识别精度,并和PPOCRV3模型最优模型进行对比;达到普通字精度不变或者更高,生僻字上精度进一步提升的效果。
  4. 提交PR到ppocr,替换最优模型。

shiyutang avatar Jul 14 '23 03:07 shiyutang