caffe_ocr
caffe_ocr copied to clipboard
为什么把中英文实验分开做呢?
在中文实验上很明显backbone(特征提取网络)增强之后,结果变好了。但是真是情况应该是中英文混合,或者整个测试集里面既有英文也有中文,以我的经验来看,感受野大了之后,对英文来说未必是好事。所以backbone的那一栏实验结果,不知道在混合数据集上表现如何?
方便透漏下个人邮箱吗?希望和你通过邮箱有进一步交流。
不太清楚你说的backbone是什么意思。中英混合的情况这里确实没有考虑。另外你说的感受野也确实是影响精度的重要因素,感受野太小的话每个时刻的特征就难有很好的代表性和区分性,感受野太大的话又容易带来混淆和漏字,这个要根据实际数据的情况来调整。191238062,我的QQ,欢迎一起讨论。
有验证的哦
@senlinuc 我也发现了这个问题,第一次做ocr,经验不是很丰富,现在我的做法是在中文的数据集dataset1中训练得差不多后,更新数据集dataset2(加入英文+数字,注:dataset1中也存在英文,数字,只不过dataset2增强了英文,数字样本比例),不知道你们怎么看。 @JacobianTang @senlinuc
我生成的中文数据集里也有少量英文和数字,这种中英混合我感觉只要总量足够,比例调整好,应该可以一次训练。
@senlinuc @jxlijunhao @JacobianTang 我也在做crnn 中文识别,我建了一个Q群:274634783 ,有兴趣的加一下,讨论问题方便一点。
@senlinuc 试验过 英文CNN+LSTM+CTC 没有出现丢字符的情况。 是不是 英文太少,或者语料中 中英应该在一起、?
Hi Senlinuc,
我是英伟达上海研发部Nic,你的QQ加不上,方便加微信吗? 谢谢!