Ruijie Yan comments

Results 17 comments of


                                            Ruijie Yan

中文数据上训练未超过CTC精度

可能是文本长度的关系？长文本情况下CTC确实能得到更好的性能，我们paper里中文样本平均长度大概是4-5个字符。

中文数据上训练未超过CTC精度

谢谢，因为把特征图聚合成一个向量之后，字符的对齐关系确实比较难学到，所以长文本效果不理想，这也是之后的改进方向之一

关于学习率对齐

实验都是单卡跑的。我自己用不同随机种子跑的时候，会有零点几到一个点的波动，不过应该不会到2-3个点。

1. 中文标签格式和英文是一样的，都是“路径文本”的形式，用的utf-8编码 2. 训练多方向文字的时候得调整一下代码，我的方法是构建2个dataloader，分别把横竖排样本归一化到64*256和256*64，然后训练的时候从这两个dataloader里读样本，大体上代码长这样： ``` python # h_loader和v_loader分别是横排样本和竖排样本的dataloader count_h, count_v = len(self.h_loader), len(self.v_loader) h_iter, v_iter = iter(self.h_loader), iter(self.v_loader) while count_h > 0 or count_v > 0: if random.random() <...

Ruijie Yan

中文数据上训练未超过CTC精度

中文数据上训练未超过CTC精度

关于学习率对齐

中文训练标签以及横竖排样本预处理

关于label预处理

ctc_loss gets inf values and Unknow chars

ctc_loss gets inf values and Unknow chars