visual-language-models topics

ROSGPT_Vision

85

Stars

12

Forks

Watchers

Commanding robots using only Language Models' prompts

bilel-bj

chatgpt

language-models

language-models-are-next

large-language-models

CogVLM

5.9k

Stars

407

Forks

Watchers

a state-of-the-art-level open visual language model | 多模态预训练模型

THUDM

cross-modality

language-model

multi-modal

pretrained-models

language-conditioned-robot-manipulation-models

75

Stars

1

Forks

75

Watchers

https://arxiv.org/abs/2312.10807

hk-zh

foundation-models

imitation-learning

language-conditioned-learning

large-languge-models

AlignGPT

29

Stars

3

Forks

Watchers

Official repo for "AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability"

AlignGPT-VL

large-language-models

multimodal-large-language-models

visual-language-models

crab

177

Stars

26

Forks

Watchers

CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents. https://crab.camel-ai.org/

camel-ai

gui-automation

language-model-agent

large-language-models

multi-agent-systems

VCR

23

Stars

1

Forks

Watchers

Official Repo for the paper: VCR: Visual Caption Restoration. Check arxiv.org/pdf/2406.06462 for details.

tianyu-z

benchmark

deep-learning

visual-language-models

CoN-CLIP

17

Stars

1

Forks

Watchers

Implementation of the "Learn No to Say Yes Better" paper.

jaisidhsingh

compositionality

deep-learning

image-captions

image-text-matching

HOI-Ref

17

Stars

2

Forks

Watchers

Code implementation for paper titled "HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision"

Sid2697

dataset

dataset-generation

egocentric-vision

hand-object-interaction

wildclip

15

Stars

1

Forks

Watchers

Scene and animal attribute retrieval from camera trap data with domain-adapted vision-language models

amathislab

behavior

camera-trap

clip

computer-vision

Basic-Visual-Language-Model

47

Stars

8

Forks

47

Watchers

Build a simple basic multimodal large model from scratch. 从零搭建一个简单的基础多模态大模型🤖

xinyanghuang7

large-language-models

multimodel-large-language-model

visual-language-learning

visual-language-models