ICLR22 submission paper.
아이디어는 간단하다. 아직, accept 된건 아니지만, paper가 재미있어서 가져왔다.
ViT가 잘되는 건, transformer 가 좋아서일까, patch input이 좋아서일까?
저자들은 patch 로 input 넣는 구조 자체가 좋아서라고 말하며, ConvMixer라는 구조를 제안하고 실험해본다.
paper
code
ConvMixer
이 그림으로 설명 가능하다.
patch input에 저런 구조를 넣어서 성능을 재 보았다.

Result
hmmteresting!
