lmdeploy 是否支持多模态的多lora推理

对不同领域都微调了一个lora adapter（基于qwen2.5-vl-7b）,这个时候就希望，在显存不猛增的情况下，灵活地动态更改模型，也就是需要推理框架支持多lora推理，可以切换 adapter，当前我们的服务是否支持，或者未来会支持吗

vllm有提供这个 https://docs.vllm.ai/en/latest/features/lora.html#serving-lora-adapters

No response

Oct 23 '25 07:10 Amber-Believe

多 lora 是支持的，不过要在加载模型时都指定好，不支持运行时动态添加如果特定模型 lora 支持失效可以向我们汇报

Oct 24 '25 03:10 grimoire

多 lora 是支持的，不过要在加载模型时都指定好，不支持运行时动态添加如果特定模型 lora 支持失效可以向我们汇报

基于上述回复有几个问题： 1）多Lora指的是说明文档中LLM部署下面的吗？

如果是上面这个， 2）对于多Lora是只能通过在线的方式启动，然后通过调用API的方式使用吗？服务如果在docker里，那就需要启动多个terminal，感觉不是很方便

Oct 24 '25 08:10 Amber-Believe