vision-language topics

Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

OFA-Sys

image-captioning

multimodal

pretraining

referring-expression-comprehension

movienet-tools

254

Stars

29

Forks

Watchers

Tools for movie and video research

movienet

action-recognition

computer-vision

cross-modality

deep-learning

Kaleido-BERT

264

Stars

19

Forks

Watchers

💐Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

mczhuge

bert

e-commerce

fashion

multimodal

cliport

424

Stars

78

Forks

Watchers

CLIPort: What and Where Pathways for Robotic Manipulation

cliport

clip

computer-vision

deep-learning

grounding

Vision-Language-Transformer

335

Stars

21

Forks

Watchers

[ICCV2021 & TPAMI2023] Vision-Language Transformer and Query Generation for Referring Segmentation

henghuiding

iccv2021

keras

referring-segmentation

tensorflow

pix2seq

823

Stars

67

Forks

Watchers

Pix2Seq codebase: multi-tasks with generative modeling (autoregressive and diffusion)

google-research

computer-vision

deep-learning

object-detection

pix2seq

calvin

275

Stars

44

Forks

Watchers

CALVIN - A benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks

mees

computer-vision

deep-learning

grounding

manipulation

vse_infty

149

Stars

18

Forks

Watchers

Code for "Learning the Best Pooling Strategy for Visual Semantic Embedding", CVPR 2021

woodfrog

cross-modal-retrieval

image-text-matching

pytorch

vision-language

ContraCLIP

41

Stars

0

Forks

Watchers

Authors official PyTorch implementation of the "ContraCLIP: Interpretable GAN generation driven by pairs of contrasting sentences".

chi0tzp

clip

gans

interpretability

non-linear-paths