vcuda-controller icon indicating copy to clipboard operation
vcuda-controller copied to clipboard

torch:1.12.0+cu113 驱动:530.41.03,gpu manager调度成功之后,使用cuda报错

Open Justin-ZL opened this issue 2 years ago • 3 comments

一个问题是使用nvidia-smi显示的数据有问题 image 另一个问题是,在使用cuda的时候报错:RuntimeError: CUDA error: invalid device context

Justin-ZL avatar Apr 24 '23 09:04 Justin-ZL

应该是需要适配cuda 12

seanchen022 avatar May 16 '23 07:05 seanchen022

is this project still under maintenance ?

panpan0000 avatar Jun 20 '23 06:06 panpan0000

针对问题1,也可以尝试降低节点上nv卡的驱动版本及含带的cuda版本,例如 image

然后进入业务pod中,执行nvidia-smi命令,查看 image

function not found就会消失,但总显存不是pod分配的显存,还需要解决这个问题

hiahia121 avatar Dec 20 '23 09:12 hiahia121