vision-language-model topics

A collection of original, innovative ideas and algorithms towards Advanced Literate Machinery. This project is maintained by the OCR Team in the Language Technology Lab, Tongyi Lab, Alibaba Group.

AlibabaResearch

artificial-intelligence

computer-vision

document

document-analysis

Awesome-Controllable-Generation

289

Stars

17

Forks

Watchers

Papers and resources on Controllable Generation using Diffusion Models, including ControlNet, DreamBooth, T2I-Adapter, IP-Adapter.

cot

VLM_survey

1.8k

Stars

166

Forks

Watchers

Collection of AWESOME vision-language models for vision tasks

jingyi0000

clip

computer-vision

deep-learning

knowledge-distillation

multimodal-maestro

963

Stars

68

Forks

Watchers

Effective prompting for Large Multimodal Models like GPT-4 Vision, LLaVA or CogVLM. 🔥

roboflow

cross-modal

gpt-4

gpt-4-vision

instance-segmentation

Recognize-Any-Regions

112

Stars

4

Forks

Watchers

Recognize Any Regions

Surrey-UPLab

auto-labeling

instance-segmentation

multimodal-representation-learning

object-detection

Chatbot Arena meets multi-modality! Multi-Modality Arena allows you to benchmark vision-language models side-by-side while providing images as inputs. Supports MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP...

chat