1day_1paper icon indicating copy to clipboard operation
1day_1paper copied to clipboard

[92] Revisiting Multi-Scale Feature Fusion for Semantic Segmentation

Open dhkim0225 opened this issue 2 years ago • 0 comments

paper

정말 단순하다. segmentation 에는 P9까지 쓰면 좋다구~~~ 굳이 ASPP 같은 모듈 쓸 필요 없다. (이게 cost 가 크다) 끝.

image

성능 비교. image

확실히 semantic segmentation 같은 task 는 receptive field 가 중요한 역할을 하는 것으로 보인다. image

decoder 는 변형된 bifpn 형태를 가져갔다. 최종적으로 weighted sum 을 하는 형태. image 단순 weighted sum 은 아니고 learnable weight w 들을 두고, softmax 수행 image

channel wise learnable attention 느낌. (learnable query) test 시에는 정해진 weight를 기준으로 softmax 를 제거할 수 있음 (fuse layer)

추가 속도 향상

backbone 은 efficientnet을 썼는데 느렸다고 한다. MBConv 대신 Effv2 에서 layer 앞쪽에서만 썼던 fused-MBConv 를 모든 레이어에 활용했다. SiLU(Swish-1) 는 ReLU 로 바꿨고 속도 면에서 가성비가 구린 SE module 은 모두 없앴다.

Cityscape

image image image

pretraining == Mapillary Vistas set 으로 500 epochs 학습 self-training == coarse annotated data 에 coarse label 안쓰고 confidence 0,5 이상인 애들만 갖고 label 만들어서 training 수행 coarse 영역 label 을 이용해서 negative 정보도 줄 수 있음. image

ADE-20K

image

dhkim0225 avatar Apr 19 '22 03:04 dhkim0225