maxvit icon indicating copy to clipboard operation
maxvit copied to clipboard

Maxvit local global

Open easy2star opened this issue 1 year ago • 0 comments

为什么计算局部注意力时,需要把特征图变换成 (H/P × W/P, P², C) 这个形状,即将P²放在倒数第二个维度?

而计算全局注意力时,则需要把特征图变换成 (G², H/G × W/G, C) 这个形状,然后再交换 【倒数第二个维度】 和 【倒数第三个维度】 的顺序,即变成 (H/G × W/G, G², C),既然这种形式和局部形式相同,为什么不直接进行相同的变换呢,而是再去额外的交换维度?

easy2star avatar Oct 28 '23 09:10 easy2star