vision-and-language topics

X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense r...

YehLi

cross-modal-retrieval

image-captioning

pretraining

tden

image-captioning

269

Stars

52

Forks

Watchers

Implementation of 'X-Linear Attention Networks for Image Captioning' [CVPR 2020]

JDAI-CV

image-captioning

vision-and-language

ALBEF

1.4k

Stars

191

Forks

Watchers

Code for ALBEF: a new vision-language pre-training method

salesforce

contrastive-learning

image-text

representation-learning

vision-and-language

Proctoring-AI

526

Stars

323

Forks

Watchers

Creating a software for automatic monitoring in online proctoring

vardanagarwal

automation

dlib

eye-tracking

face-detection

VL-BERT

734

Stars

110

Forks

Watchers

Code for ICLR 2020 paper "VL-BERT: Pre-training of Generic Visual-Linguistic Representations".

jackroos

bert

iclr2020

pre-training

pytorch