PaddleOCR 识别模型微调finetune相关的问题

识别模型微调finetune相关的问题

Open ainndejj11 opened this issue 2 years ago • 1 comments

训练V3版本是文字识别模型。场景是身份证。当前下载了部分开源的中文识别的数据集有200多万张。自己生成的中文数据集有40万张左右，标注好的真实身份证的图片有10万张左右。用V3官方提供的中文推理模型测试身份证，有些不清晰的识别效果不好。因此使用了真实图片进行标注。

想使用ch_PP-OCRv3_rec_train/best_accuracy.pdparams 预训练模型进行finetune。

请问：：使用官方的这个中文识别训练模型微调，应该是用以下那两种方法好呢？ 1. 加入我找的这200万张开源中文数据集，然后将 ratio_list：设置成真实+生成和开源数据 1：1 2. 不需要加入我找的开源数据，直接使用生成的数据和真实数据进行finetune

Oct 20 '22 09:10 ainndejj11

可以都试一下，用实验结果说话

Oct 24 '22 06:10 WenmuZhou