PaddleOCR
PaddleOCR copied to clipboard
识别模型微调finetune相关的问题
训练V3版本是文字识别模型。 场景是身份证。 当前下载了部分开源的中文识别的数据集有200多万张。自己生成的中文数据集有40万张左右,标注好的真实身份证的图片有10万张左右。 用V3官方提供的中文推理模型测试身份证,有些不清晰的识别效果不好。因此使用了真实图片进行标注。
想使用ch_PP-OCRv3_rec_train/best_accuracy.pdparams 预训练模型进行finetune。
请问::使用官方的这个中文识别训练模型微调 ,应该是用以下那两种方法好呢? 1. 加入我找的这200万张开源中文数据集 ,然后将 ratio_list:设置成真实+生成 和 开源数据 1:1 2. 不需要加入我找的开源数据,直接使用生成的数据和真实数据进行finetune
可以都试一下,用实验结果说话