vision-and-language topics

Research Code for NeurIPS 2020 Spotlight paper "Large-Scale Adversarial Training for Vision-and-Language Representation Learning": LXMERT adversarial training part

zhegan27

adversarial-training

neurips-2020

vision-and-language

visual-question-answering

TVLT

120

Stars

13

Forks

Watchers

PyTorch code for “TVLT: Textless Vision-Language Transformer” (NeurIPS 2022 Oral)

zinengtang

audio

pretraining

textless

transformers

eccv-caption

51

Stars

2

Forks

Watchers

Extended COCO Validation (ECCV) Caption dataset (ECCV 2022)

naver-ai

cross-modal-retrieval

dataset

deep-learning

eccv2022

prismer

1.3k

Stars

75

Forks

Watchers

The implementation of "Prismer: A Vision-Language Model with Multi-Task Experts".

NVlabs

image-captioning

language-model

multi-modal-learning

multi-task-learning

awesome-japanese-llm

962

Stars

29

Forks

Watchers

日本語LLMまとめ - Overview of Japanese LLMs

llm-jp

awesome

awesome-list

embeddings

japanese

OFASys

142

Stars

10

Forks

Watchers

OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models

OFA-Sys

audio

computer-vision

deep-learning

motion

Pathology Language and Image Pre-Training (PLIP) is the first vision and language foundation model for Pathology AI (Nature Medicine). PLIP is a large-scale pre-trained model that can be used to extra...

PathologyFoundation

artificial-intelligence

clip

pathology

vision-and-language