1day_1paper [67] Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer (TextTranSpotter, TTS)

[67] Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer (TextTranSpotter, TTS)

Open dhkim0225 opened this issue 3 years ago • 0 comments

나약한 나. 지난 1달간 대규모 리팩토링으로 굉장히 바빴다. 물론 핑계다. 논문 한 편 읽을 시간은 얼마든지 낼 수 있었다. 정신력이 부족한 것. 반성하며 재시작.

===============================================================

기존 e2e pipeline 은 detection과 recognition branch 가 나눠져 있다. (detection, recognition label 둘 다 필요) 제안하는 모델은 fully annotated data 와 localization 정보 빠진 데이터를 함께 이용해서 학습.

추가로,

word detection 별 single latent representation
hungarian loss 기반의 새로운 loss 제안

INTRO

재미있게도 annotation cost 별 성능을 비교한다 ㅋㅋ

Architecture

Joint Query Embedding

encoder-decoder 가 함께 detection 과 recognition branch 에 shared 되는 형태. (Deformable DETR) decoder 는 DETR 처럼 특정 갯수의 learnable object query를 가짐. 추후 실험에서 나오겠지만, bbox annoation 으로도 curved까지 잘 학습된다는 장점이 있음.

Detection Head

3 layer FFN 을 통해 query score, query box, word 포함 여부를 뽑아냄.

Recognition Head

LSTM-based decoder (one-to-many) 로 결과 쭉 뽑아냄. 이게 좀 신기함. one dimension 에 모든 정보가 닮겨 있으니 이걸로 lstm 하나만 태우면 잘 동작한다?!?! length l 만큼 character prob 뽑는 식.

Segmentation Head

Polygon 예측이 필요하다면, segmentation head를 붙여 줌 4 linear + 3 deconv

Text Hungarian Loss

원래 헝가리안 matching loss 를 그대로 가져다 쓰면 위 이미지와 같은 문제가 발생하기 때문에, criteria C 를 손본다. c_i, b_i, t_i 는 gt. α 값들은 weight 들 p~~ 값들은 뽑아본 permutation 에 대해 예측한 probability (logit)