maxvit Maxvit local global

Maxvit local global

Open easy2star opened this issue 1 year ago • 0 comments

为什么计算局部注意力时，需要把特征图变换成 (H/P × W/P, P², C) 这个形状，即将P²放在倒数第二个维度？

而计算全局注意力时，则需要把特征图变换成 (G², H/G × W/G, C) 这个形状，然后再交换【倒数第二个维度】和【倒数第三个维度】的顺序，即变成 (H/G × W/G, G², C)，既然这种形式和局部形式相同，为什么不直接进行相同的变换呢，而是再去额外的交换维度？

Oct 28 '23 09:10 easy2star