hadi
Results
12
comments of
hadi
> 应该是跑三个进程,每个进程跑模型的不同部分,这样才能做成流水线。一个进程的话那就只能阻塞到整个请求推理完为止了。 @irasin 非常感谢回答。3个进程也尝试了,用torchrun这种方式,但是GPU显存三个占用基本上差不多,如果超过16G,就报OOM。怎么能最大限度利用各个GPU的显存,第一个16G,第二三个32G。
> GPU推理还是CPU推理?像是内存不足的问题 GPU,内存将近400G,应该不是内存不足的问题 @iMountTai