vision-language topics

mix-generation

107

Stars

5

Forks

Watchers

MixGen: A New Multi-Modal Data Augmentation

amazon-science

data-augmentation

data-efficiency

multimodal

pretraining

WaffleCLIP

48

Stars

4

Forks

Watchers

Official repository for the ICCV 2023 paper: "Waffling around for Performance: Visual Classification with Random Words and Broad Concepts"

ExplainableML

clip

generalization

llm

vision-language

ARP

31

Stars

1

Forks

Watchers

Guide Your Agent with Adaptive Multimodal Rewards (NeurIPS 2023 Accepted)

csmile-1006

deep-learning

imitation-learning

reinforcement-learning

reward-shaping

OpenFusion

102

Stars

8

Forks

Watchers

[ICRA 2024 Oral] Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation

UARK-AICV

3d-reconstruction

icra2024

queryable

vision-language

SOONet

19

Stars

2

Forks

Watchers

Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos

afcedf

natural-language-video-localization

video-grounding

vision-language

HQGA

29

Stars

3

Forks

Watchers

Video as Conditional Graph Hierarchy for Multi-Granular Question Answering (AAAI'22, Oral)

doc-doc

conditional-graph-hierarchy

video-question-answering

videoqa

vision-language

Shot2Story

92

Stars

6

Forks

Watchers

A new multi-shot video understanding benchmark Shot2Story with comprehensive video summaries and detailed shot-level captions.

bytedance

benchmark

dataset

large-language-models

video-captioning

debias-vision-lang

25

Stars

4

Forks

Watchers

A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models with Adversarial Learning [AACL 2022]

oxai

deep-learning

fairness

fairness-ml

vision-language

BagFormer

113

Stars

33

Forks

Watchers

PyTorch code for BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

howard-hou

cross-modal-retrieval

image-text-retrieval

vision-language

PoS-subspaces

28

Stars

2

Forks

Watchers

[NeurIPS'23] Parts of Speech–Grounded Subspaces in Vision-Language Models

james-oldfield

text-to-image

vision-language