PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

识别模型微调finetune相关的问题

Open ainndejj11 opened this issue 2 years ago • 1 comments

训练V3版本是文字识别模型。 场景是身份证。 当前下载了部分开源的中文识别的数据集有200多万张。自己生成的中文数据集有40万张左右,标注好的真实身份证的图片有10万张左右。 用V3官方提供的中文推理模型测试身份证,有些不清晰的识别效果不好。因此使用了真实图片进行标注。

想使用ch_PP-OCRv3_rec_train/best_accuracy.pdparams 预训练模型进行finetune。

请问::使用官方的这个中文识别训练模型微调 ,应该是用以下那两种方法好呢? 1. 加入我找的这200万张开源中文数据集 ,然后将 ratio_list:设置成真实+生成 和 开源数据 1:1 2. 不需要加入我找的开源数据,直接使用生成的数据和真实数据进行finetune

ainndejj11 avatar Oct 20 '22 09:10 ainndejj11

可以都试一下,用实验结果说话

WenmuZhou avatar Oct 24 '22 06:10 WenmuZhou