CAN
CAN copied to clipboard
关于代码中对图像的设置
想知道设置mask的作用具体是什么? 并且网络对图像的size也没有进行限制,宽高和label长度都是取自每次批处理的最大值,想知道这样做的用意是什么? 但是对于通道数是设置了684
想知道设置mask的作用具体是什么? 并且网络对图像的size也没有进行限制,宽高和label长度都是取自每次批处理的最大值,想知道这样做的用意是什么? 但是对于通道数是设置了684
你好,对于输入网络的图像,取该batch内图像的最大尺寸为底,对于batch内较小的图像,相当于是在右方和下方做了padding。这种做法不用去resize图像,能保留图像的原始尺寸信息。而mask就是用来区分图像区域和padding区域的,在解码计算attention的时候会用到。684是所用的DenseNet输出特征图的通道数,和之前的公式识别方法保持一致。
嗯好的谢谢 ,可以修改成固定大小进入网络吗,会对计数模块有影响吗?如果这样通过padding输入的话尺寸太大,计算量也比较大了。
你可以试一下固定大小输入,在CROHME上精度应该会降低不少。
好的,明白了,感谢作者。
不客气,感谢关注。