vision-language-model topics

menghini-neurips23-code

39

Stars

3

Forks

Watchers

Exploring prompt tuning with pseudolabels for multiple modalities, learning settings, and training strategies.

BatsResearch

clip

prompt-tuning

pseudolabels

self-training

RobustVLM

52

Stars

3

Forks

Watchers

[ICML 2024] Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models

chs20

adversarial-attacks

adversarial-defense

ai

clip

LOVM

17

Stars

0

Forks

Watchers

[NeurIPS 2023] Official Pytorch code for LOVM: Language-Only Vision Model Selection

orrzohar

model-selection

multimodal-deep-learning

vision-language-model

DeepSeek-VL

1.7k

Stars

170

Forks

13

Watchers

DeepSeek-VL: Towards Real-World Vision-Language Understanding

deepseek-ai

vision-language-model

vision-language-pretraining

foundation-models

awesome-vlm-architectures

164

Stars

11

Forks

Watchers

Famous Vision Language Models and Their Architectures

gokayfem

awesome

awesome-list

blip

clip

LMPT

49

Stars

2

Forks

Watchers

LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed Multi-Label Visual Recognition

richard-peng-xia

long-tailed-learning

multi-label-image-classification

prompt-tuning

vision-language-model

MGM

3.0k

Stars

273

Forks

25

Watchers

Official repo for "Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models"

dvlab-research

generation

large-language-models

vision-language-model

ViECap

134

Stars

4

Forks

Watchers

Transferable Decoding with Visual Entities for Zero-Shot Image Captioning, ICCV 2023

vision-language-model

PromptKD

123

Stars

1

Forks

Watchers

[CVPR 2024] Official PyTorch Code for "PromptKD: Unsupervised Prompt Distillation for Vision-Language Models"

zhengli97

clip

cvpr2024

knowledge-distillation

multi-modal-learning

Awesome-Prompt-Learning-for-Vision-Language-Models

39

Stars

0

Forks

Watchers

A curated list of prompt learning methods for vision-language models.

zhengli97

paper-list

prompt-learning

vision-language-model