yang753

Results 2 comments of yang753

看了代码是0.4.1不支持部署多个replicas,返回的是一个pod,是这个导致的吧。 下个版本会支持的吗?

我这边是有多个应用所需要的llm服务,都是基于一个基础模型进行Lora微调的,目前都是合并独立部署的。 例如我有a,b两个业务,每个评估都是最高峰需要5个实例来应付所有请求。 那么合并部署的话就需要10个实例。 但是他们的高峰期时间又是不同的。所以我想的是可不可以部署5个基础模型,然后上面分别挂载a,b业务的Lora。 这样就减少了gpu成本。 其实如果Lora挂载也能动态负载均衡就更好了, 比如我启动10个基模,挂载lora配置 3~8 。能够根据业务请求量自动进行挂载和卸载, 这样有多个lora就可以动态复用基础模型。而不是每个基模启动的时候就挂载了所有lora。