visual-grounding topics

D3Net

37

Stars

5

Forks

Watchers

[ECCV2022] D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding

daveredrum

3d

caption-generation

computer-vision

deep-learning

ScanRefer

217

Stars

29

Forks

Watchers

[ECCV 2020] ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language

daveredrum

3d

computer-vision

dataset

deep-learning

cyclical-visual-captioning

42

Stars

3

Forks

Watchers

PyTorch code for: Learning to Generate Grounded Visual Captions without Localization Supervision

chihyaoma

captioning-images

captioning-videos

pytorch

vision-and-language

TubeDETR

161

Stars

8

Forks

Watchers

[CVPR 2022 Oral] TubeDETR: Spatio-Temporal Video Grounding with Transformers

antoyang

hc-stvg

multimodal-learning

spatio-temporal-video-grounding

stvg

SeqTR

123

Stars

12

Forks

Watchers

SeqTR: A Simple yet Universal Network for Visual Grounding

seanzhuh

auto-regressive-models

visual-grounding

awesome-grounding

973

Stars

95

Forks

Watchers

awesome grounding: A curated list of research papers in visual grounding

TheShadow29

arxiv

awesome-list

captioning-images

captioning-videos

PhraseCutDataset

97

Stars

11

Forks

Watchers

Dataset API for "PhraseCut: Language-based Image Segmentation in the Wild"

ChenyunWu

computer-vision

cvpr2020

datasets

referring-image-segmentation

vognet-pytorch

67

Stars

7

Forks

Watchers

[CVPR20] Video Object Grounding using Semantic Roles in Language Description (https://arxiv.org/abs/2003.10606)

TheShadow29

captioning-videos

grounding

nlp

object-grounding

Pseudo-Q

139

Stars

9

Forks

Watchers

[CVPR 2022] Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding

LeapLabTHU

computer-vision

cvpr2022

deep-learning

multimodal-deep-learning

vRGV

57

Stars

7

Forks

Watchers

Visual Relation Grounding in Videos (ECCV'20, Spotlight)

doc-doc

hierarchical

region-graph

spatio-temporal

visual-grounding