PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

生僻字和特殊字体的识别率很低,怎么finetune比较好

Open asus10tu opened this issue 2 years ago • 2 comments

自己找了30w张,全域的样本图片(既包含生僻字也有普通字),感觉提升效果很一般。 生僻字的识别没有明显的提升,特殊字体略有提升,但是对于普通字体识别率有所下降。

有没有针对的优化建议呢,谢谢

asus10tu avatar Aug 08 '22 09:08 asus10tu

30w数据是个什么样的分布呢,字典有调整吗

MissPenguin avatar Aug 08 '22 12:08 MissPenguin

Referen

你好,30w都是根据真实情况,均匀分布的,没有对目标字符或字体加重比例,也就是说生僻字出现的概率,对应图片出现的概率是一样的。 字典没有调整,就使用默认的字典,经查过里面是包含我想要的生僻字的。

asus10tu avatar Aug 08 '22 14:08 asus10tu

This issue has been automatically marked as stale because it has not had recent activity. It will be closed in 7 days if no further activity occurs. Thank you for your contributions.

github-actions[bot] avatar Jul 07 '23 08:07 github-actions[bot]