vcuda-controller
vcuda-controller copied to clipboard
torch:1.12.0+cu113 驱动:530.41.03,gpu manager调度成功之后,使用cuda报错
一个问题是使用nvidia-smi显示的数据有问题
另一个问题是,在使用cuda的时候报错:RuntimeError: CUDA error: invalid device context
应该是需要适配cuda 12
is this project still under maintenance ?
针对问题1,也可以尝试降低节点上nv卡的驱动版本及含带的cuda版本,例如
然后进入业务pod中,执行nvidia-smi命令,查看
function not found就会消失,但总显存不是pod分配的显存,还需要解决这个问题