1day_1paper
1day_1paper copied to clipboard
[67] Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer (TextTranSpotter, TTS)
나약한 나. 지난 1달간 대규모 리팩토링으로 굉장히 바빴다. 물론 핑계다. 논문 한 편 읽을 시간은 얼마든지 낼 수 있었다. 정신력이 부족한 것. 반성하며 재시작.
===============================================================
기존 e2e pipeline 은 detection과 recognition branch 가 나눠져 있다. (detection, recognition label 둘 다 필요)
제안하는 모델은 fully annotated data 와 localization 정보 빠진 데이터를 함께 이용해서 학습.
추가로,
- word detection 별 single latent representation
- hungarian loss 기반의 새로운 loss 제안
INTRO
재미있게도 annotation cost 별 성능을 비교한다 ㅋㅋ
Architecture
Joint Query Embedding
encoder-decoder 가 함께 detection 과 recognition branch 에 shared 되는 형태. (Deformable DETR) decoder 는 DETR 처럼 특정 갯수의 learnable object query를 가짐. 추후 실험에서 나오겠지만, bbox annoation 으로도 curved까지 잘 학습된다는 장점이 있음.
Detection Head
3 layer FFN 을 통해 query score, query box, word 포함 여부를 뽑아냄.
Recognition Head
LSTM-based decoder (one-to-many) 로 결과 쭉 뽑아냄. 이게 좀 신기함. one dimension 에 모든 정보가 닮겨 있으니 이걸로 lstm 하나만 태우면 잘 동작한다?!?! length l 만큼 character prob 뽑는 식.
Segmentation Head
Polygon 예측이 필요하다면, segmentation head를 붙여 줌 4 linear + 3 deconv
Text Hungarian Loss
원래 헝가리안 matching loss 를 그대로 가져다 쓰면 위 이미지와 같은 문제가 발생하기 때문에,
criteria C 를 손본다.
c_i, b_i, t_i 는 gt.
α 값들은 weight 들
p~~ 값들은 뽑아본 permutation 에 대해 예측한 probability (logit)
recognition 단은 criteria 든 실제 loss 든 cross entropy 를 사용했음.
C_box 는 DETR 쓰던 방식대로
Weakly Supervision
synthetic 데이터로 fully annotation 학습 하고, real 데이터로는 박스 정보 없는 것만 이용
criteria 나 loss 에서 box loss 만 뺌.
Results