[33] Dynamic DETR: End-to-End Object Detection with Dynamic Attention

Open dhkim0225 opened this issue 3 years ago • 0 comments

microsoft 에서 밀고 있는 DETR. Dynamic DETR. paper

Dynamic DETR

overview 이다. 아래 설명을 읽다가 overview 그림을 한 번씩 다시 봐주면 이해가 편할 것이다.

Revisit DETR

DETR 은 단순 transformer 에다가 learnable query 를 둔 형태였다. resnet-50 을 통과시켜서 얻은 feature 를 transformer 에 박는다.

attention 을 굳-이 다시 수식으로 표현하면 다음과 같다.

encoder self-attention 과 decoder cross-attention 에서 큰 cost 가 발생하니까 dynamic attention을 활용하자!

Dynamic Encoder

self-attention 을 approximate 하기 위해 convolution-based approach 를 사용한다. feature pyramid P = {P1, P2, ... , Pk} 가 있다고 해보자 (보통 detector에서는 k == 5) ~굳이 예를 들자면 resnet 50 통과키셔서 나온 5개의 feature~

우선 여기에 pyramid conv 를 적용해준다. 아래 이미지는 pyramid conv 논문에서 가져왔다.

이를 수식으로 나타내 보면 다음과 같다. pyramid conv 는 주변 3개 scale을 같은 크기로 맞춘다음 summation 때려버리는 방법이다.

근데 이게 무슨 self-attention 을 대체한다는 말인가! 유의미하려면 여기에 deformable 정도는 얹어주어야 한다.

이렇게 뽑아낸 feature 들을 pyramidconv 처럼 그냥 더해주지 말고, se-module 을 한 번 적용해 줘서 중요도를 반영, 합쳐준다.

여기에 마지막으로 dynamic relu를 끼얹는다.

위 방식을 하나의 수식으로 나타내면 다음과 같다. (k 는 fpn feature 개수)

상당히 흥미롭다. 결국, transformer encoder 는 안 쓰이는 것이 아닌가!

Dynamic Decoder

decoder 는 transformer based 이다. 다른 점은,

cross-attention 부분을 dynamic convolution으로 대체 시켰다.
ROI pool 을 쓴다. (?!)

ROI pool 부터 살펴보자. position embedding 을 learnable Box encoding 으로 바꾸었다고 한다. box encoding 은 학습이 시작할 때 전체 이미지를 cover 하는 box 로 initialize 된다. q 는 query embedding 의 크기. 300 이다.

encoder output P_{enc} 와 B, pooling size r 을 이용해 pooling 을 수행한다. F 는 q x r x r x d 의 크기를 가진다. (q 개의 box 를 r x r 크기로 roi-pool 시켜 버리기 때문) d 는 P_{enc} 의 dimension 이다.