lmdeploy
lmdeploy copied to clipboard
是否支持多模态的多lora推理
Motivation
对不同领域都微调了一个lora adapter(基于qwen2.5-vl-7b),这个时候就希望,在显存不猛增的情况下,灵活地动态更改模型,也就是需要推理框架支持多lora推理,可以切换 adapter,当前我们的服务是否支持,或者未来会支持吗
Related resources
vllm有提供这个
https://docs.vllm.ai/en/latest/features/lora.html#serving-lora-adapters
Additional context
No response
多 lora 是支持的,不过要在加载模型时都指定好,不支持运行时动态添加 如果特定模型 lora 支持失效可以向我们汇报
多 lora 是支持的,不过要在加载模型时都指定好,不支持运行时动态添加 如果特定模型 lora 支持失效可以向我们汇报
基于上述回复有几个问题: 1)多Lora指的是说明文档中LLM部署下面的吗?
如果是上面这个, 2)对于多Lora是只能通过在线的方式启动,然后通过调用API的方式使用吗?服务如果在docker里,那就需要启动多个terminal,感觉不是很方便