Chen Xin comments

Results 250 comments of


                                            Chen Xin

how to use trt_llm to accelerate original llava-liuhaotian/llava-v1.5-7b?

Hi, LMDeploy now support serving liuhaotian/llava-v1.5-7b and provides OpenAI-compatible APIs。Feedback is welcomed These are related docs https://github.com/InternLM/lmdeploy/blob/main/docs/en/serving/api_server_vl.md https://github.com/InternLM/lmdeploy/blob/main/docs/en/inference/vl_pipeline.md

不使用lmdeploy和swift应该如何进行多图推理

dp 是啥意思

能像qwen-chat一样提供fastapi版本的web api 代码吗?

Hi, LMDeploy 目前可以部署Qwen/Qwen-VL-Chat，并支持openai形式的用法。欢迎使用并提供宝贵意见这里是相关文档。 https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/serving/api_server_vl.md https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/inference/vl_pipeline.md

💡 [REQUEST] - <title> 请问何时能支持vllm部署呢

Hi, LMDeploy 目前可以部署Qwen/Qwen-VL-Chat，并支持openai形式的用法。欢迎使用并提供意见这里是相关文档。 https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/serving/api_server_vl.md https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/inference/vl_pipeline.md

💡 [REQUEST] - <title> 请问何时能支持vllm部署呢

> 请问LMDeploy部署的话，可以支持kv-cache加速吗支持的，也可以用 LMDeploy 的工具进行awq 量化，其他的量化格式正在支持中。

[Bug] 部署InternLM-XComposer2服务的时候，请求报错的时候；整个卡住，不返回500，并且其他请求都进不去

[这个地方](https://github.com/InternLM/lmdeploy/pull/1640/files)有一点问题，你这个图是四通道的，代码里面转了RGB，但是接下去的HD_transform还是用的之前的图片。 fixed in https://github.com/InternLM/lmdeploy/pull/1640

[Feature] Support vl models quantization

xcomposer2 量化的时候，weight_type 是int4，[LlamaLinear.h](https://github.com/InternLM/lmdeploy/blob/834e375473dc9fe4432477a45bcfbfe08f80a31f/src/turbomind/models/llama/LlamaLinear.h) 是需要改的，不然只会经过`forwardInt4`，不会经过plora

Balance vision model weights on multi gpus

> 现在的 tp 相当于只要 CUDA_VISIBLE_DEVICES 可访问的 GPU 都会用吗？即使指定了 tp==2, 也会用四卡，如果四卡均可访问是的。

Balance vision model weights on multi gpus

@covdvoyager 可以看下这个是否能帮到你。 https://github.com/InternLM/lmdeploy/issues/1146#issuecomment-2101845391

Balance vision model weights on multi gpus

@buaadf backend_config 里面的 tp 需要 2的幂次。