1day_1paper
1day_1paper copied to clipboard

Published 20 hours ago •

Reame
Issues

[40] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

Open dhkim0225 opened this issue 3 years ago • 0 comments

TF-E == Transoformer Encoder

Contributions

PVT 제안. 다양한 vision task 에 적용 가능
multi-scale, high resolution feature 를 위해 progressive shrinking pyramid, spatial-reduction attention (SRA) 제안
(논문 나올 당시) SOTA

Pyramid Vision Transformer (PVT)

3.1. Overall Architecture

3.2. Feature Pyramid for Transformer

그림을 보면 알겠지만, patch embedding 하는 시점에 linear 에서 featuremap size 가 줄어든다. P 값은 4개 stage에 각각 (4, 2, 2, 2)로 들어간다. channel 수를 (1/4, 1/2, 1/2, 1/2) 로 줄여나가면서 reshape 해서 image featuremap size 가 줄어드는 효과 다음 stage 로 넘어갈 때마다 reshape 이 된다.

3.3. Transformer Encoder

나머진 다 똑같고, self-attention 쪽에 SRA 가 추가적으로 적용되는데, 엄청 간단하다. R 만큼 reduction!

그니까... 우선 input을 다음과 같이 reshape 해주고,

뒤에 linear 를 붙여서 channel reduction 을 해주는 방식이다. 너무 쉽다.

3.4. Model Details

N은 head 수 E는 feed-forward에서 expansion ratio

깊어질 수록

SRA reduction ratio 감소
head 증가
expansion ratio 는 감소.

Results

Image Classification

ImageNet

Detection

COCO val 2017

Semantic Segmentation

ADE 20k val set

Instance Segmentation

COCO val 2017

Ablations

Trans2Seg같이 다른 head 를 붙여도 잘 됨.

RetinaNet 붙여서 실험해 보면 ViT 보다 훨씬 잘되는 거 볼 수 있음

RetinaNet 붙여서 Resnet50 과 curve 비교. 1x, 3x 는 스케줄 방식. Pretrained 는 Imagenet pretrained 임.

deeper vs wider deeper 가 좀 더 나은 것 같음

속도도 comparable 함

여전히 단점이라고 하면 input scale 에 따른 complexity 증가

Dec 15 '21 03:12 dhkim0225