chatglm.cpp
chatglm.cpp copied to clipboard
单卡多模型能实现推理并行吗
单卡多模型能实现推理并行吗
得有足够显存才能加载模型吧。 只要显存足够,应该是可以并行的。当然也存在GPU算力资源分配问题。
请问最后实现了吗,默认只在第一块gpu进行加载和运算
请问最后实现了吗,默认只在第一块gpu进行加载和运算
不行,单卡多模型可以运行,但是一个模型推理的时候现存利用率会拉满,另一个模型只能等第一个推理完后才能推理,然后2个结果一起返回