Ruijie Yan
Ruijie Yan
可能是文本长度的关系? 长文本情况下CTC确实能得到更好的性能,我们paper里中文样本平均长度大概是4-5个字符。
谢谢,因为把特征图聚合成一个向量之后,字符的对齐关系确实比较难学到,所以长文本效果不理想,这也是之后的改进方向之一
实验都是单卡跑的。我自己用不同随机种子跑的时候,会有零点几到一个点的波动,不过应该不会到2-3个点。
1. 中文标签格式和英文是一样的,都是“路径 文本”的形式,用的utf-8编码 2. 训练多方向文字的时候得调整一下代码,我的方法是构建2个dataloader,分别把横竖排样本归一化到64*256和256*64,然后训练的时候从这两个dataloader里读样本,大体上代码长这样: ``` python # h_loader和v_loader分别是横排样本和竖排样本的dataloader count_h, count_v = len(self.h_loader), len(self.v_loader) h_iter, v_iter = iter(self.h_loader), iter(self.v_loader) while count_h > 0 or count_v > 0: if random.random() <...
这样并不会把每个字符中间加一个空格,只是防止如果标签中本身有空格,这样能把空格恢复
Thanks. I finally found my problem: the original configuration is designed for the vertical text poly (height > width) except for the ICDAR-2015 dataset. After I modified this line in...
@kei6 Of course. In data_gen.py, line 122: ``if is_icdar: pts = np.roll(pts,2)`` Because the texts in the sample image "sample_train_data/MLT/done/img_5407.jpg" are vertical, so the original code doesn't roll its points....