[92] Revisiting Multi-Scale Feature Fusion for Semantic Segmentation

Open dhkim0225 opened this issue 2 years ago • 0 comments

정말 단순하다. segmentation 에는 P9까지 쓰면 좋다구~~~ 굳이 ASPP 같은 모듈 쓸 필요 없다. (이게 cost 가 크다) 끝.

성능 비교.

확실히 semantic segmentation 같은 task 는 receptive field 가 중요한 역할을 하는 것으로 보인다.

decoder 는 변형된 bifpn 형태를 가져갔다. 최종적으로 weighted sum 을 하는 형태. 단순 weighted sum 은 아니고 learnable weight w 들을 두고, softmax 수행

channel wise learnable attention 느낌. (learnable query) test 시에는 정해진 weight를 기준으로 softmax 를 제거할 수 있음 (fuse layer)

추가 속도 향상

backbone 은 efficientnet을 썼는데 느렸다고 한다. MBConv 대신 Effv2 에서 layer 앞쪽에서만 썼던 fused-MBConv 를 모든 레이어에 활용했다. SiLU(Swish-1) 는 ReLU 로 바꿨고 속도 면에서 가성비가 구린 SE module 은 모두 없앴다.

Cityscape

pretraining == Mapillary Vistas set 으로 500 epochs 학습 self-training == coarse annotated data 에 coarse label 안쓰고 confidence 0,5 이상인 애들만 갖고 label 만들어서 training 수행 coarse 영역 label 을 이용해서 negative 정보도 줄 수 있음.

ADE-20K

Apr 19 '22 03:04 dhkim0225

1day_1paper 1day_1paper copied to clipboard

[92] Revisiting Multi-Scale Feature Fusion for Semantic Segmentation

추가 속도 향상

Cityscape

ADE-20K

1day_1paper
1day_1paper copied to clipboard