multimodal-deep-learning topic

List multimodal-deep-learning repositories

Taris

25

Stars

6

Forks

Watchers

Transformer-based online speech recognition system with TensorFlow 2

audio-visual-speech-recognition

FVTA_MemexQA

33

Stars

15

Forks

Watchers

Real-world photo sequence question answering system (MemexQA). CVPR'18 and TPAMI'19

memex-question-answering

memexqa-dataset

multimodal-datasets

multimodal-deep-learning

densecap-pytorch

39

Stars

9

Forks

Watchers

A simplified pytorch version of densecap

dense-captioning

image-captioning

multimodal-deep-learning

awesome-emotion-recognition-in-conversations

245

Stars

42

Forks

Watchers

A comprehensive reading list for Emotion Recognition in Conversations

conversational-ai

dialogue-systems

emotion-recognition

emotion-recognition-in-conversation

scarches

314

Stars

49

Forks

Watchers

Reference mapping for single-cell genomics

batch-correction

data-integration

human-cell-atlas

awesome-grounding

973

Stars

95

Forks

Watchers

awesome grounding: A curated list of research papers in visual grounding

captioning-images

captioning-videos

awesome-vision-language-pretraining-papers

1.1k

Stars

101

Forks

Watchers

Recent Advances in Vision and Language PreTrained Models (VL-PTMs)

multimodal-deep-learning

vision-and-language

video-captioning

165

Stars

66

Forks

Watchers

This repository contains the code for a video captioning system inspired by Sequence to Sequence -- Video to Text. This system takes as input a video and generates a caption in English describing the...

multimodal-deep-learning

sequence-to-sequence

multimodal-deep-learning

662

Stars

141

Forks

Watchers

This repository contains various models targetting multimodal representation learning, multimodal fusion for downstream tasks such as multimodal sentiment analysis.

multimodal-deep-learning

multimodal-interactions

multimodal-learning

multimodal-sentiment-analysis

blended-latent-diffusion

519

Stars

32

Forks

Watchers

Official implementation for "Blended Latent Diffusion" [SIGGRAPH 2023]

multimodal-deep-learning

text-guided-manipulation