ybshaw

Results 13 comments of ybshaw

同问,4卡RTX,共96G显存,推理的时候只在第一张卡上执行,指定多卡的话又报错:`RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:2 and cuda:3!`,请问推理的时候有办法分布到多卡上执行么

> @ybshaw 问题解决了么? 没有,目前采用int4版本,可以单卡跑

测试下来发现随着请求次数的增加,显存会一直上涨直至OOM,大概5~6张图片显卡就满了,请问是加载模型的问题吗,能优化吗