PaddleOCR
PaddleOCR copied to clipboard
生僻字和特殊字体的识别率很低,怎么finetune比较好
自己找了30w张,全域的样本图片(既包含生僻字也有普通字),感觉提升效果很一般。 生僻字的识别没有明显的提升,特殊字体略有提升,但是对于普通字体识别率有所下降。
有没有针对的优化建议呢,谢谢
30w数据是个什么样的分布呢,字典有调整吗
Referen
你好,30w都是根据真实情况,均匀分布的,没有对目标字符或字体加重比例,也就是说生僻字出现的概率,对应图片出现的概率是一样的。 字典没有调整,就使用默认的字典,经查过里面是包含我想要的生僻字的。
This issue has been automatically marked as stale because it has not had recent activity. It will be closed in 7 days if no further activity occurs. Thank you for your contributions.