topduke comments

Results 49 comments of


                                            topduke

请问SVTR是否支持输入图片宽度变长？

没有做过不使用绝对位置编码的实验，但是位置编码SVTR中不是关键部分，可以尝试直接将绝对位置编码去掉。支持变长的position embedding可以参考SWin、CSwin、Uniformer等论文。

> @Topdu 感谢分享，实测可扩展为变长推理还想请教下，Local mixer提供的mask在模型训练过程中会通过学习的方式更新嘛？另外，（1）Local mixer + Global mixer 和（2）Conv mixer + Global mixer 两种组合方式的效果有比较过嘛？ 1、Local mixer 的mask在训练期间不会更新，其本质是，计算attention时将局部领域内patch保留，领域外的patch被mask掉。 2、（1）在论文的数据集和训练配置下表现更优秀，同时参数量少了一点，但是实际场景中（1）（2）两种方式都可以尝试。 > DropPath在SVTR实际训练过程中有使用嘛？影响收敛速度和收敛效果嘛？另外pos_embed为什么采用trunc_normal_初始化？另外激活函数选用了nn.GELU，这个对模型收敛速度和精度提升有收益嘛？ DropPath默认使用，可以在代码中看到。 DropPath、pos_embed、nn.GELU均是参考当前Vision Transformer的通用配置，并没有进行消融实验。

请问SVTR是否支持输入图片宽度变长？

patch的size是固定的4*4，如果patch的数量改变，也就是输入大小改变了，一般来说，输入大小越大性能越高。 Local mixer可以看做卷积特殊形式，卷积的kernal size是和输入大小无关的，也就是理论上讲Local mixer和输入大小无关，但是现在Local mixer的实现方式是不灵活的，一个类似Local mixer机制的实现方式可以参考 [Neighborhood-Attention-Transformer](https://github.com/SHI-Labs/Neighborhood-Attention-Transformer) ，这种实现方式更灵活，可以实现与输入大小无关，完全当作卷积使用，但是对于文本识别这种输入size相对较小的任务，这种实现方式速度会慢一些，后续SVTR也会考虑使用这种方式实现一版。如果把local mixer当成卷积，训练和推理都可以使用变长的输入。

topduke

请问SVTR是否支持输入图片宽度变长？

请问SVTR是否支持输入图片宽度变长？

请问SVTR是否支持输入图片宽度变长？

请问SVTR是否支持输入图片宽度变长？

请问SVTR是否支持输入图片宽度变长？

请问SVTR是否支持输入图片宽度变长？

请问SVTR是否支持输入图片宽度变长？

SVTR输入长度改变要改哪些模型结构

SVTR输入长度改变要改哪些模型结构

SVTR识别模型推理阶段输出与之前不一致