1day_1paper icon indicating copy to clipboard operation
1day_1paper copied to clipboard

[21] Focal Self-attention for Local-Global Interactions in Vision Transformers (Focal Transformer)

Open dhkim0225 opened this issue 3 years ago • 0 comments

야심차게 내놓았지만, 사실 swin 과 성능이 비슷? 해서 뜨지는 않은 논문. paper code

DeiT 의 layer 별 heatmap 을 보면 점점 local context에서 넓게 넓혀가는 것을 볼 수 있다. 이런 특성을 이용하자. image

[H x W x 3] 의 이미지는 4x4 patch 로 나누어진다. 그래서 총 patch 개수는 𝐻/4 x 𝑊/4 x d 부터 시작하게 된다. image

Focal Self Attention은 다음과 같이 구성된다. image s_w 는 pooling size s_r 은 pooled output size 그림에서 level이 3개 쓰였지만, 실재 모델은 2개 사용

image

Result

굉장히 단순한 아이디어, 좋은 성능. but, Swin 보다 같은 flops 에서 조금 더 느리고, parameter도 swin 보다 약간 더 썼다. image

image

detection, segmentation 에서의 성능향상이 두드러지지 않는 것에 대해 저자들은 이렇게 말한다.

detection, segmentation task 는 좀 더 모델이 coarse feature를 보고 싶어한다. 
coarse feature를 압착해서 가져가다보니, focal-transformer가 크게 힘을 못 쓴 것으로 보인다.

dhkim0225 avatar Nov 03 '21 05:11 dhkim0225