chatglm.cpp icon indicating copy to clipboard operation
chatglm.cpp copied to clipboard

单卡多模型能实现推理并行吗

Open 780966854 opened this issue 1 year ago • 3 comments

单卡多模型能实现推理并行吗

780966854 avatar Oct 24 '23 02:10 780966854

得有足够显存才能加载模型吧。 只要显存足够,应该是可以并行的。当然也存在GPU算力资源分配问题。

jonsen avatar Oct 27 '23 23:10 jonsen

请问最后实现了吗,默认只在第一块gpu进行加载和运算

XiaoYangWu avatar Sep 11 '24 06:09 XiaoYangWu

请问最后实现了吗,默认只在第一块gpu进行加载和运算

不行,单卡多模型可以运行,但是一个模型推理的时候现存利用率会拉满,另一个模型只能等第一个推理完后才能推理,然后2个结果一起返回

780966854 avatar Sep 11 '24 06:09 780966854