1day_1paper icon indicating copy to clipboard operation
1day_1paper copied to clipboard

[75] Vision-Language Pre-Training with Triple Contrastive Learning

Open dhkim0225 opened this issue 3 years ago • 0 comments

rosinality's comment

vision-language 모델들이 서로 다른 modality의 alignment에 대해서는 많이 탐색했는데
개별 modal에 대한 representation 학습은 없지 않았나 하는 아이디어. 
그래서 cross modal align + intra modal align을 기본으로 하고 
global-local mi, image-text matching, mlm을 끼얹은 vision-language model을 만들었음

paper code

TCL (Triple Contrastive Loss)

image

Align before Fuse 주장에 따르면, Text Encoder, Image Encoder 다음에 Fusion Encoder 를 붙이면 더 좋다. 그 구조는 그대로 냅두고, 좀 더 발전된 형태의 alignment 를 제시한다.

Image 는 I1, I2 2개로 나뉘어서 각각 img encoder, momentum img encoder 에 들어감 Text 는 별다른 변형 없이 text encoder, momentum text encoder 에 들어감

Negative sample 은 배치 내에서 구성

Cross-Modal Alignment (CMA)

CMA 의 목적은 image 와 text embedding 이 가까워지도록 하는 것. tilde 가 붙어 있는 애들은 negative sample 을 의미한다.

loss 는 InfoNCE image image image

Intra-Modal Contrastive (IMC)

요 녀석은, augmented view 더라도 같은 embedding 으로 모아주는 역할을 함 image

Local MI Maximization (LMI)

global representation과 모든 local region 사이의 MI 를 늘리기 위하는 것. (예를 들어, image patch CLS와 text token 들. 그림 참고.)

momentum 의 local feature 들이 online net 의 CLS 와 가까워짐. image

Image-Text Matching (ITM)

(img, text) 가 positive (1) 인지 negative (1) 인지 binary classification image

Masked Language Modeling (MLM)

BERT loss 와 동일 image

최종 Loss

image

Result

zero-shot retrieval

image

finetuned retrieval

image

VL Tasks

image

Ablations

image

dhkim0225 avatar Feb 24 '22 02:02 dhkim0225