CycleMLP
CycleMLP copied to clipboard
论文实现问题
如果我没理解错的话,CycleMLP 等价于分组shift+ channel shuffle +mlp
mlp对前一层的通道有全局依赖,所以channel shuffle是没有必要的,所以cyclemlp 不需要cycle
直接实现为 分组shift+mlp速度会更快,与原来的cyclemlp的差异可以用初始化的方式对齐。