PaddleOCR
PaddleOCR copied to clipboard
SVTR输入长度改变要改哪些模型结构
作者你好,SVTR是个很棒的识别模型!我现在有个任务需要识别比较长的文本,输入长度改变要改哪些模型结构?我现在将svtr输入尺寸改为[32,768],out_char_num也改为了96,发现训练收敛较慢,是否还需要改其他配置?如果需要,要改哪些模型结构配置?
SVTR TINY CH
可以尝试以下实验: 1、使用SVTR的中文或者英文预训练模型; 2、如果长文本数据很多,可以去掉 - RecConAug 数据增强方法; 3、将mixer的Local替换为Conv、local_mixer全部修改为[5, 5]