maxvit
maxvit copied to clipboard
Maxvit local global
为什么计算局部注意力时,需要把特征图变换成 (H/P × W/P, P², C) 这个形状,即将P²放在倒数第二个维度?
而计算全局注意力时,则需要把特征图变换成 (G², H/G × W/G, C) 这个形状,然后再交换 【倒数第二个维度】 和 【倒数第三个维度】 的顺序,即变成 (H/G × W/G, G², C),既然这种形式和局部形式相同,为什么不直接进行相同的变换呢,而是再去额外的交换维度?