vision-and-language topics

LAVIS

9.3k

Stars

921

Forks

Watchers

LAVIS - A One-stop Library for Language-Vision Intelligence

salesforce

deep-learning

deep-learning-library

image-captioning

multimodal-datasets

wikiHow_paper_list

27

Stars

2

Forks

Watchers

A paper list of research conducted based on wikiHow

muhaochen

learning-resources

natural-language-generation

natural-language-processing

natural-language-understanding

awesome-visual-grounding

28

Stars

2

Forks

Watchers

awesome visual grounding: a curated list of research papers in referring visual grounding

qy-feng

grounding

referring-segmentation

vision-and-language

VLDeformer

26

Stars

3

Forks

Watchers

Pytorch implement of the paper "VLDeformer: Vision Language Decomposed Transformer for Fast Cross-modal Retrieval", KBS 2022

idealwhite

cross-modal-retrieval

pytorch

text-to-image-search

transformer

zeroshot-storytelling

15

Stars

0

Forks

Watchers

Github repository for Zero Shot Visual Storytelling

cloneofsimo

beam-search

ml

nlp

vision-and-language

NvEM

76

Stars

2

Forks

Watchers

[ACM MM 2021 Oral] Official repo of "Neighbor-view Enhanced Model for Vision and Language Navigation"

MarSaKi

acmmm2021

embodied-vision

vision-and-language

vision-and-language-navigation

visual-spatial-reasoning

87

Stars

7

Forks

Watchers

[TACL'23] VSR: A probing benchmark for spatial undersranding of vision-language models.

cambridgeltl

computer-vision

multimodal-deep-learning

nlp

vision-and-language

VLMbench

73

Stars

8

Forks

Watchers

NeurIPS 2022 Paper "VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation"

eric-ai-lab

compositionality

embodied-ai

language-grounding

robotic-manipulation

VL-PLM

83

Stars

8

Forks

Watchers

Exploiting unlabeled data with vision and language models for object detection, ECCV 2022

xiaofeng94

object-detection

unsupervised-learning

vision-and-language

synse-zsl

29

Stars

4

Forks

Watchers

Official PyTorch code for the ICIP 2021 paper 'Syntactically Guided Generative Embeddings For Zero Shot Skeleton Action Recognition'

skelemoa

action-recognition

computer-vision

generalized-zero-shot-learning

icip2021