PaddleOCR icon indicating copy to clipboard operation
PaddleOCR copied to clipboard

在垂类场景下,更改了算法,要fine-tuning的话需要用什么公开训练集进行预训练?官方的预训练模型是在什么数据集上训练?

Open SchengSteins opened this issue 2 years ago • 1 comments

垂类数据集只要5000张,并且种类不丰富,达不到比较好的效果。进行fine-tuning是否能提高模型的性能,需要用哪些数据集进行预训练。

SchengSteins avatar Nov 01 '22 08:11 SchengSteins

官方模型收集了多种开源数据集,并用工具合成了一些,组成最终的训练集。finetune一般建议直接加载ppocr模型作为预训练哈

MissPenguin avatar Nov 08 '22 07:11 MissPenguin