vision-and-language topics

video_captioning_datasets

110

Stars

12

Forks

Watchers

Summary about Video-to-Text datasets. This repository is part of the review paper *Bridging Vision and Language from the Video-to-Text Perspective: A Comprehensive Review*

jssprz

activitynet-captions

charades

msr-vtt

msvd

clevr-dialog

44

Stars

2

Forks

Watchers

Repository to generate CLEVR-Dialog: A diagnostic dataset for Visual Dialog

satwikkottur

computer-vision

dataset-generation

deep-learning

dialogue-generation

FrozenBiLM

144

Stars

23

Forks

Watchers

[NeurIPS 2022] Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

antoyang

large-language-models

multimodal-learning

pre-training

video-question-answering

rosita

55

Stars

13

Forks

Watchers

ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration

MILVLG

image-text-retrieval

pre-training

referring-expression-comprehension

vision-and-language

IAIS

30

Stars

4

Forks

Watchers

[ACL 2021] Learning Relation Alignment for Calibrated Cross-modal Retrieval

lancopku

multimodal

retrieval

vision-and-language

hulc

58

Stars

9

Forks

Watchers

Hierarchical Universal Language Conditioned Policies

lukashermann

computer-vision

deep-learning

grounding

manipulation

Explore-And-Match

42

Stars

2

Forks

Watchers

Official pytorch implementation of "Explore-And-Match: Bridging Proposal-Based and Proposal-Free With Transformer for Sentence Grounding in Videos"

sangminwoo

moment-retrieval

natural-language-video-localization

video-grounding

vision-and-language

robo-vln

66

Stars

8

Forks

Watchers

Pytorch code for ICRA'21 paper: "Hierarchical Cross-Modal Agent for Robotics Vision-and-Language Navigation"

GT-RIPL

artificial-intelligence

bert

computer-vision

deep-learning

Xmodal-Ctx

60

Stars

10

Forks

Watchers

Official PyTorch implementation of our CVPR 2022 paper: Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

GT-RIPL

clip

cross-modal

image-captioning

vision-and-language

X2-VLM

115

Stars

9

Forks

Watchers

All-In-One VLM: Image + Video + Transfer to Other Languages / Domains (TPAMI 2023)

zengyan-97

vision-and-language