aster.pytorch icon indicating copy to clipboard operation
aster.pytorch copied to clipboard

请教一下关于中文训练的问题。

Open sssimpleboy opened this issue 2 years ago • 7 comments

首先,是生成mdb文件。 因为readlines() 读不出来中文。 可以考虑用utf-8编码读入,但是编码后又该怎么办呢? 我怕格式对不上,中英文编码占得字节数不一样。比如,0:0,1:1,...9:9,10:a,11:b,这种对应关系,我不知道怎么让utf-8编码与类别对应。 其次,是字典。我在其他讨论中看到有说替换list ,生成自动中文字典的。没搞懂啥意思,我只知道voc_type对应值决定了大写小写数字之类的。 5555555555555 然后,是预训练模型,提供的是英文的,我是不是需要从头开始训练中文的模型呢? 因为模型是矫正识别一体的,不能只训练矫正模型嘛。 还有我之前用您提供的CVPR2016的mdb文件训练时,训练到一半停止了(好像是内存不够)? 我是两块2080ti。需要换更大的吗?

希望大佬能帮帮我,这个项目的效果挺棒的,只是现在需要在中文环境使用,束手无策了 = =。

sssimpleboy avatar May 06 '22 05:05 sssimpleboy

额,已经训练好了,但是由于没有预训练模型,所以必须从头开始训练,效果比较差。训练集是百度某次竞赛的29W清洗后剩下17W条字符串,测试集是RCTW2017里取了8000条字符串,再大就要爆存了,都是中文为主的(一级汉字3500+英文52+数字10+标点符号一共3598个类别)。epoch设了48,可能有点小,学习率是1。 第一次训练到最后准确能达到3.9%。。。。第二次训练接着第一次的训练模型,准确率能达到5.3% 然后就不会涨了。 损失在11~13之间波动。5555555555555555

sssimpleboy avatar May 17 '22 06:05 sssimpleboy

哪位大佬来99孩子鸭~~~

sssimpleboy avatar May 17 '22 06:05 sssimpleboy

是不是初始值设置的不好呢?

sssimpleboy avatar May 17 '22 06:05 sssimpleboy

中文的话,直接用这个repo可能效果不是很好。因为中文文字条的长度变化更加大,直接resize到同一个size进行训练的话,可能需要很大的数据量。所以在实际应用中,我一般都是不同batch采用不同长度来训练中文。另外,lr 1看起来好像有点大,可能导致不太好收敛。

ayumiymk avatar Aug 25 '22 03:08 ayumiymk

我之前生成数据长度都在7以内。 然后训练的时候我得先用您提供的英文训练一会,再用中文训练准确率才能上去。 如果直接用我自己生成的中文,不管学习率设成多少(0.00001,0.0001,0.001,0.01,0.1,1,10,100都试了) 都很难有效果

sssimpleboy avatar Aug 25 '22 03:08 sssimpleboy

中文怎么做自己的数据集呀

xingniandage avatar Dec 01 '22 16:12 xingniandage

中文怎么做自己的数据集呀

TextRecognitionDataGenerator

sssimpleboy avatar Dec 02 '22 00:12 sssimpleboy