1day_1paper
1day_1paper copied to clipboard
[75] Vision-Language Pre-Training with Triple Contrastive Learning
rosinality's comment
vision-language 모델들이 서로 다른 modality의 alignment에 대해서는 많이 탐색했는데
개별 modal에 대한 representation 학습은 없지 않았나 하는 아이디어.
그래서 cross modal align + intra modal align을 기본으로 하고
global-local mi, image-text matching, mlm을 끼얹은 vision-language model을 만들었음
TCL (Triple Contrastive Loss)
Align before Fuse 주장에 따르면, Text Encoder, Image Encoder 다음에 Fusion Encoder 를 붙이면 더 좋다. 그 구조는 그대로 냅두고, 좀 더 발전된 형태의 alignment 를 제시한다.
Image 는 I1, I2 2개로 나뉘어서 각각 img encoder, momentum img encoder 에 들어감 Text 는 별다른 변형 없이 text encoder, momentum text encoder 에 들어감
Negative sample 은 배치 내에서 구성
Cross-Modal Alignment (CMA)
CMA 의 목적은 image 와 text embedding 이 가까워지도록 하는 것. tilde 가 붙어 있는 애들은 negative sample 을 의미한다.
loss 는 InfoNCE
Intra-Modal Contrastive (IMC)
요 녀석은, augmented view 더라도 같은 embedding 으로 모아주는 역할을 함
Local MI Maximization (LMI)
global representation과 모든 local region 사이의 MI 를 늘리기 위하는 것. (예를 들어, image patch CLS와 text token 들. 그림 참고.)
momentum 의 local feature 들이 online net 의 CLS 와 가까워짐.
Image-Text Matching (ITM)
(img, text) 가 positive (1) 인지 negative (1) 인지 binary classification
Masked Language Modeling (MLM)
BERT loss 와 동일