visual-question-answering topic

List visual-question-answering repositories

easy-VQA

32

Stars

11

Forks

Watchers

The Easy Visual Question Answering dataset.

visual-question-answering

hexia

24

Stars

2

Forks

Watchers

Mid-level PyTorch Based Framework for Visual Question Answering.

attention-mechanism

bachelor-project

convolutional-neural-networks

visual-question-answering

bottom-up-attention

1.4k

Stars

377

Forks

Watchers

Bottom-up attention model for image captioning and VQA, based on Faster R-CNN and Visual Genome

captioning-images

image-captioning

FiLM-pytorch

49

Stars

6

Forks

Watchers

PyTorch implementation of FiLM: Visual Reasoning with a General Conditioning Layer

visual-question-answering

ban-vqa

536

Stars

101

Forks

Watchers

Bilinear attention networks for visual question answering

bilinear-pooling

pytorch-implmention

visual-question-answering

just-ask

114

Stars

15

Forks

Watchers

[ICCV 2021 Oral + TPAMI] Just Ask: Learning to Answer Questions from Millions of Narrated Videos

multimodal-learning

question-generation

video-question-answering

FVTA_MemexQA

33

Stars

15

Forks

Watchers

Real-world photo sequence question answering system (MemexQA). CVPR'18 and TPAMI'19

memex-question-answering

memexqa-dataset

multimodal-datasets

multimodal-deep-learning

BLIP

4.3k

Stars

573

Forks

Watchers

PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

image-captioning

image-text-retrieval

vision-and-language-pre-training

vision-language

mcan-vqa

432

Stars

88

Forks

Watchers

Deep Modular Co-Attention Networks for Visual Question Answering

visual-question-answering

visual-reasoning

xmodaler

1.0k

Stars

112

Forks

Watchers

X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense r...

cross-modal-retrieval

image-captioning