yang753 comments

Results 2 comments of


                                            yang753

lora的modeladapter中设置Replicas多副本不生效

看了代码是0.4.1不支持部署多个replicas，返回的是一个pod，是这个导致的吧。下个版本会支持的吗？

lora的modeladapter中设置Replicas多副本不生效

我这边是有多个应用所需要的llm服务，都是基于一个基础模型进行Lora微调的，目前都是合并独立部署的。例如我有a,b两个业务，每个评估都是最高峰需要5个实例来应付所有请求。那么合并部署的话就需要10个实例。但是他们的高峰期时间又是不同的。所以我想的是可不可以部署5个基础模型，然后上面分别挂载a，b业务的Lora。这样就减少了gpu成本。其实如果Lora挂载也能动态负载均衡就更好了，比如我启动10个基模，挂载lora配置 3~8 。能够根据业务请求量自动进行挂载和卸载，这样有多个lora就可以动态复用基础模型。而不是每个基模启动的时候就挂载了所有lora。