lmdeploy icon indicating copy to clipboard operation
lmdeploy copied to clipboard

是否支持多模态的多lora推理

Open Amber-Believe opened this issue 2 months ago • 2 comments

Motivation

对不同领域都微调了一个lora adapter(基于qwen2.5-vl-7b),这个时候就希望,在显存不猛增的情况下,灵活地动态更改模型,也就是需要推理框架支持多lora推理,可以切换 adapter,当前我们的服务是否支持,或者未来会支持吗

Related resources

vllm有提供这个Image https://docs.vllm.ai/en/latest/features/lora.html#serving-lora-adapters

Additional context

No response

Amber-Believe avatar Oct 23 '25 07:10 Amber-Believe

多 lora 是支持的,不过要在加载模型时都指定好,不支持运行时动态添加 如果特定模型 lora 支持失效可以向我们汇报

grimoire avatar Oct 24 '25 03:10 grimoire

多 lora 是支持的,不过要在加载模型时都指定好,不支持运行时动态添加 如果特定模型 lora 支持失效可以向我们汇报

基于上述回复有几个问题: 1)多Lora指的是说明文档中LLM部署下面的吗?

Image

如果是上面这个, 2)对于多Lora是只能通过在线的方式启动,然后通过调用API的方式使用吗?服务如果在docker里,那就需要启动多个terminal,感觉不是很方便

Amber-Believe avatar Oct 24 '25 08:10 Amber-Believe