rayne-Li

Results 2 comments of rayne-Li

我认为对于目前vllm的睡眠模式, 基于进程的调度是有实际可落地场景的. 目前我正在进行相关的调研 在一个pod中启动两个进程(对应两个模型), 一个睡眠 一个服务, 通过routing策略唤醒/睡眠其中一个模型, 实现模型切换, 增加GPU的利用率(相同数量GPU运行更多的模型)

> @rayne-Li Thank you for your proposal, but I'm not entirely sure if this breaks the separation of concerns principle between the gateway and workload. 🤔 Could we achieve this...