multimodal-learning topics

LViT

259

Stars

24

Forks

Watchers

[IEEE Transactions on Medical Imaging/TMI] This repo is the official implementation of "LViT: Language meets Vision Transformer in Medical Image Segmentation"

HUANGLIZI

medical-image-analysis

pytorch

segmentation

vision-language

MSAF

67

Stars

9

Forks

Watchers

Offical implementation of paper "MSAF: Multimodal Split Attention Fusion"

anita-hu

action-recognition

cmu-mosei

multimodal-deep-learning

multimodal-emotion-recognition

VIG

21

Stars

3

Forks

Watchers

Dataset for Visually Indicated Sound Generation by Perceptually Optimized Classification

kanchen-usc

multimodal-learning

sound-synthesis

video-analysis

slp

21

Stars

7

Forks

Watchers

Utils and modules for Speech Language and Multimodal processing using pytorch and pytorch lightning

georgepar

multimodal

multimodal-deep-learning

multimodal-learning

natural-language-processing

open_flamingo

3.5k

Stars

263

Forks

Watchers

An open-source framework for training large multimodal models.

mlfoundations

computer-vision

deep-learning

in-context-learning

language-model

OFASys

142

Stars

10

Forks

Watchers

OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models

OFA-Sys

audio

computer-vision

deep-learning

motion

UniRepLKNet

835

Stars

52

Forks

Watchers

[CVPR'24] UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

AILab-CVC

architecture

artificial-intelligence

convolutional-neural-networks

deep-learning

ICCV 2023 Papers: Discover cutting-edge research from ICCV 2023, the leading computer vision conference. Stay updated on the latest in computer vision and deep learning, with code included. ⭐ support...

DmitryRyumin

3d-graphics

3d-reconstruction

biometrics

computer-vision