1day_1paper
1day_1paper copied to clipboard
[21] Focal Self-attention for Local-Global Interactions in Vision Transformers (Focal Transformer)
야심차게 내놓았지만, 사실 swin 과 성능이 비슷? 해서 뜨지는 않은 논문. paper code
DeiT 의 layer 별 heatmap 을 보면 점점 local context에서 넓게 넓혀가는 것을 볼 수 있다. 이런 특성을 이용하자.
[H x W x 3] 의 이미지는 4x4 patch 로 나누어진다. 그래서 총 patch 개수는 𝐻/4 x 𝑊/4 x d 부터 시작하게 된다.
Focal Self Attention은 다음과 같이 구성된다.
s_w 는 pooling size
s_r 은 pooled output size
그림에서 level이 3개 쓰였지만, 실재 모델은 2개 사용
Result
굉장히 단순한 아이디어, 좋은 성능. but, Swin 보다 같은 flops 에서 조금 더 느리고, parameter도 swin 보다 약간 더 썼다.
detection, segmentation 에서의 성능향상이 두드러지지 않는 것에 대해 저자들은 이렇게 말한다.
detection, segmentation task 는 좀 더 모델이 coarse feature를 보고 싶어한다.
coarse feature를 압착해서 가져가다보니, focal-transformer가 크게 힘을 못 쓴 것으로 보인다.