1day_1paper icon indicating copy to clipboard operation
1day_1paper copied to clipboard

[67] Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer (TextTranSpotter, TTS)

Open dhkim0225 opened this issue 3 years ago • 0 comments

나약한 나. 지난 1달간 대규모 리팩토링으로 굉장히 바빴다. 물론 핑계다. 논문 한 편 읽을 시간은 얼마든지 낼 수 있었다. 정신력이 부족한 것. 반성하며 재시작.



기존 e2e pipeline 은 detection과 recognition branch 가 나눠져 있다. (detection, recognition label 둘 다 필요) 제안하는 모델은 fully annotated data 와 localization 정보 빠진 데이터를 함께 이용해서 학습. image


  • word detection 별 single latent representation
  • hungarian loss 기반의 새로운 loss 제안


재미있게도 annotation cost 별 성능을 비교한다 ㅋㅋ image



Joint Query Embedding

encoder-decoder 가 함께 detection 과 recognition branch 에 shared 되는 형태. (Deformable DETR) decoder 는 DETR 처럼 특정 갯수의 learnable object query를 가짐. 추후 실험에서 나오겠지만, bbox annoation 으로도 curved까지 잘 학습된다는 장점이 있음.

Detection Head

3 layer FFN 을 통해 query score, query box, word 포함 여부를 뽑아냄.

Recognition Head

LSTM-based decoder (one-to-many) 로 결과 쭉 뽑아냄. 이게 좀 신기함. one dimension 에 모든 정보가 닮겨 있으니 이걸로 lstm 하나만 태우면 잘 동작한다?!?! length l 만큼 character prob 뽑는 식.

Segmentation Head

Polygon 예측이 필요하다면, segmentation head를 붙여 줌 4 linear + 3 deconv

Text Hungarian Loss


원래 헝가리안 matching loss 를 그대로 가져다 쓰면 위 이미지와 같은 문제가 발생하기 때문에, criteria C 를 손본다. image image c_i, b_i, t_i 는 gt. α 값들은 weight 들 p~~ 값들은 뽑아본 permutation 에 대해 예측한 probability (logit)

recognition 단은 criteria 든 실제 loss 든 cross entropy 를 사용했음. image

C_box 는 DETR 쓰던 방식대로

Weakly Supervision

synthetic 데이터로 fully annotation 학습 하고, real 데이터로는 박스 정보 없는 것만 이용

criteria 나 loss 에서 box loss 만 뺌. image image


image image

dhkim0225 avatar Feb 16 '22 09:02 dhkim0225