PaddleOCR 使用自己造的数据集训练与测试集准确率较高，再用另一种情境下的扫描笔真实数据测试准确率几乎为0。

使用自己造的数据集训练与测试集准确率较高，再用另一种情境下的扫描笔真实数据测试准确率几乎为0。

Open JavieYuan opened this issue 2 years ago • 6 comments

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：
版本号/Version：Paddle： PaddleOCR：问题相关组件/Related components：
运行指令/Command Code：
完整报错/Complete Error Message：
训练结果如上图所示
训练集大概100W张中文文本图，6W张英文文本图，字典包含中英文字符为7千左右，训练数据如下图所示：

Sep 28 '22 11:09 JavieYuan

使用真实的扫描笔拼接数据进行eval以及infer发现准确率为0，真实数据如下：

Sep 28 '22 11:09 JavieYuan

真实数据的识别结果类似如下所示，其中中文以及英文识别结果都很离谱： ./testdata/tr/000000017.bmp 蚕 ./testdata/tr/000000018.bmp 疆晶曹

请问是什么原因呢？？？？？

Sep 28 '22 12:09 JavieYuan

1）推理的时候，字典更换了吗 2）可以用paddleOCRv3预训练模型直接预测看下效果 3）测试生成数据效果怎么样呢 4）生成的数据和真实数据还是有一些偏差，可以在生成数据集上再改造下

Sep 28 '22 12:09 an1018

que 请问关于输入图像32*320这部分，说把图像等比例缩放至3，32，320以及不足320部分补0，关于这部分的源码在哪里呀，好像不在数据增强rec_img_aug里面？？？

Oct 09 '22 07:10 JavieYuan

1）推理的时候，字典更换了吗 2）可以用paddleOCRv3预训练模型直接预测看下效果 3）测试生成数据效果怎么样呢 4）生成的数据和真实数据还是有一些偏差，可以在生成数据集上再改造下

在训练的时候是没有用预训练模型的，是直接训练的，如果加载预训练模型开始训练的话泛化性会变强吗？还是说最终泛化性拟合效果仅仅趋向于自己人工合成的训练数据？训练数据是只有自己人工合成的

Oct 14 '22 02:10 JavieYuan

This issue has been automatically marked as stale because it has not had recent activity. It will be closed in 7 days if no further activity occurs. Thank you for your contributions.

Jul 07 '23 08:07 github-actions[bot]

PaddleOCR PaddleOCR copied to clipboard

使用自己造的数据集训练与测试集准确率较高，再用另一种情境下的扫描笔真实数据测试准确率几乎为0。

PaddleOCR
PaddleOCR copied to clipboard