chatglm.cpp 单卡多模型能实现推理并行吗

单卡多模型能实现推理并行吗

Open 780966854 opened this issue 1 year ago • 3 comments

单卡多模型能实现推理并行吗

Oct 24 '23 02:10 780966854

得有足够显存才能加载模型吧。只要显存足够，应该是可以并行的。当然也存在GPU算力资源分配问题。

Oct 27 '23 23:10 jonsen

请问最后实现了吗，默认只在第一块gpu进行加载和运算

Sep 11 '24 06:09 XiaoYangWu

请问最后实现了吗，默认只在第一块gpu进行加载和运算

不行，单卡多模型可以运行，但是一个模型推理的时候现存利用率会拉满，另一个模型只能等第一个推理完后才能推理，然后2个结果一起返回

Sep 11 '24 06:09 780966854