Results 250 comments of Chen Xin

Hi, LMDeploy now support serving liuhaotian/llava-v1.5-7b and provides OpenAI-compatible APIs。Feedback is welcomed These are related docs https://github.com/InternLM/lmdeploy/blob/main/docs/en/serving/api_server_vl.md https://github.com/InternLM/lmdeploy/blob/main/docs/en/inference/vl_pipeline.md

Hi, LMDeploy 目前可以部署Qwen/Qwen-VL-Chat,并支持openai形式的用法。欢迎使用并提供宝贵意见 这里是相关文档。 https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/serving/api_server_vl.md https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/inference/vl_pipeline.md

Hi, LMDeploy 目前可以部署Qwen/Qwen-VL-Chat,并支持openai形式的用法。欢迎使用并提供意见 这里是相关文档。 https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/serving/api_server_vl.md https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/inference/vl_pipeline.md

> 请问LMDeploy部署的话,可以支持kv-cache加速吗 支持的,也可以用 LMDeploy 的工具进行awq 量化,其他的量化格式正在支持中。

[这个地方](https://github.com/InternLM/lmdeploy/pull/1640/files)有一点问题,你这个图是四通道的,代码里面转了RGB,但是接下去的HD_transform还是用的之前的图片。 fixed in https://github.com/InternLM/lmdeploy/pull/1640

xcomposer2 量化的时候,weight_type 是int4,[LlamaLinear.h](https://github.com/InternLM/lmdeploy/blob/834e375473dc9fe4432477a45bcfbfe08f80a31f/src/turbomind/models/llama/LlamaLinear.h) 是需要改的,不然只会经过`forwardInt4`,不会经过plora

> 现在的 tp 相当于只要 CUDA_VISIBLE_DEVICES 可访问的 GPU 都会用吗?即使指定了 tp==2, 也会用四卡,如果四卡均可访问 是的。

@covdvoyager 可以看下这个是否能帮到你。 https://github.com/InternLM/lmdeploy/issues/1146#issuecomment-2101845391

@buaadf backend_config 里面的 tp 需要 2的幂次。