qwen-vl topics

PaddleMIX

345

Stars

128

Forks

Watchers

Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high per...

PaddlePaddle

aigc

blip2

clip

coca

awesome-vlm-architectures

393

Stars

22

Forks

Watchers

Famous Vision Language Models and Their Architectures

gokayfem

awesome

awesome-list

blip

clip

webmarker

30

Stars

3

Forks

Watchers

Mark web pages for use with vision-language models

reidbarber

claude

gemini

gpt4o

gpt4v

lmms-finetune

166

Stars

21

Forks

Watchers

A minimal codebase for finetuning large multimodal models, supporting llava-1.5/1.6, llava-interleave, llava-next-video, llava-onevision, qwen-vl, qwen2-vl, phi3-v etc.

zjysteven

finetuning

foundation-models

instruction-tuning

large-language-model