PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

使用自己造的数据集训练与测试集准确率较高,再用另一种情境下的扫描笔真实数据测试准确率几乎为0。

Open JavieYuan opened this issue 2 years ago • 6 comments

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

  • 系统环境/System Environment:

  • 版本号/Version:Paddle: PaddleOCR: 问题相关组件/Related components:

  • 运行指令/Command Code:

  • 完整报错/Complete Error Message: 图片1

  • 训练结果如上图所示

  • 训练集大概100W张中文文本图,6W张英文文本图,字典包含中英文字符为7千左右,训练数据如下图所示:

 0

JavieYuan avatar Sep 28 '22 11:09 JavieYuan

image

JavieYuan avatar Sep 28 '22 11:09 JavieYuan

使用真实的扫描笔拼接数据进行eval以及infer发现准确率为0,真实数据如下: image image

JavieYuan avatar Sep 28 '22 11:09 JavieYuan

真实数据的识别结果类似如下所示,其中中文以及英文识别结果都很离谱: ./testdata/tr/000000017.bmp 蚕 ./testdata/tr/000000018.bmp 疆晶曹

请问是什么原因呢?????

JavieYuan avatar Sep 28 '22 12:09 JavieYuan

1)推理的时候,字典更换了吗 2)可以用paddleOCRv3预训练模型直接预测看下效果 3)测试生成数据效果怎么样呢 4)生成的数据和真实数据还是有一些偏差,可以在生成数据集上再改造下

an1018 avatar Sep 28 '22 12:09 an1018

que 请问关于输入图像32*320这部分,说把图像等比例缩放至3,32,320以及不足320部分补0,关于这部分的源码在哪里呀,好像不在数据增强rec_img_aug里面???

JavieYuan avatar Oct 09 '22 07:10 JavieYuan

1)推理的时候,字典更换了吗 2)可以用paddleOCRv3预训练模型直接预测看下效果 3)测试生成数据效果怎么样呢 4)生成的数据和真实数据还是有一些偏差,可以在生成数据集上再改造下

在训练的时候是没有用预训练模型的,是直接训练的,如果加载预训练模型开始训练的话泛化性会变强吗?还是说最终泛化性拟合效果仅仅趋向于自己人工合成的训练数据?训练数据是只有自己人工合成的

JavieYuan avatar Oct 14 '22 02:10 JavieYuan

This issue has been automatically marked as stale because it has not had recent activity. It will be closed in 7 days if no further activity occurs. Thank you for your contributions.

github-actions[bot] avatar Jul 07 '23 08:07 github-actions[bot]