multimodal-learning topics

CoVA-Web-Object-Detection

82

Stars

13

Forks

Watchers

A Context-aware Visual Attention-based training pipeline for Object Detection from a Webpage screenshot!

kevalmorabia97

attention

computer-vision

convolutional-neural-networks

deep-learning

valhalla-nmt

26

Stars

4

Forks

Watchers

Code repository for CVPR 2022 paper "VALHALLA: Visual Hallucination for Machine Translation"

JerryYLi

computer-vision

machine-translation

multimodal-learning

natural-language-processing

FrozenBiLM

144

Stars

23

Forks

Watchers

[NeurIPS 2022] Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

antoyang

large-language-models

multimodal-learning

pre-training

video-question-answering

PLMPapers

78

Stars

34

Forks

Watchers

A paper list of pre-trained language models (PLMs).

wxl1999

bert

deep-learning

gpt

machine-learning

AdaMML

50

Stars

9

Forks

Watchers

Official implementation of AdaMML. https://arxiv.org/abs/2105.05165.

IBM

computer-vision

deep-learning

efficient-inference

multimodal-learning

MultiViz

82

Stars

3

Forks

Watchers

[ICLR 2023] MultiViz: Towards Visualizing and Understanding Multimodal Models

pliang279

computer-vision

machine-learning

multimodal-learning

natural-language-processing

HVPNeT

97

Stars

10

Forks

Watchers

[NAACL 2022 Findings] Good Visual Guidance Makes A Better Extractor: Hierarchical Visual Prefix for Multimodal Entity and Relation Extraction

zjunlp

bert

dataset

entity-extraction

hvpnet

mrg

28

Stars

10

Forks

Watchers

Code for the paper "Multimodal Review Generation for Recommender Systems", WWW'19

PreferredAI

multimodal-learning

multimodal-review-generation

recommender-systems

review-generation

Job-Recommend-Competition

43

Stars

4

Forks

Watchers

🥇KNOW기반 직업 추천 알고리즘 경진대회 1등 솔루션입니다🥇

affjljoo3581

attention-mechanism

attention-model

competition

dacon

visually-informed-embedding-of-word-VIEW-

30

Stars

11

Forks

Watchers

Visually informed embedding of word (VIEW) is a tool for transferring multimodal background knowledge to NLP algorithms.

oswaldoludwig

deep-learning

embeddings

mscoco

multimodal-learning