Four Hu
Results
3
comments of
Four Hu
> or > ok, I will add unit test later.
> [@fourhu](https://github.com/fourhu) 需要看下宿主机 dmesg 记录,绑定 vfio 驱动报错了 测试过程中,GPU 掉卡的问题,有很大概率出现。是否可以在系统层面避免?比如 GPU 云主机在调度时,如果出现了掉卡情况,不调度到掉卡的宿主机?
> [@fourhu](https://github.com/fourhu) 目前还没有掉卡的监控报警发现机制,所以调度层面还无法感知。你这个环境掉卡是硬件问题还是什么问题? 目前硬件问题还在排查,还不确定。然后宿主机重启后,卡又可以正常识别了,GPU 掉卡问题应该还是很常见的。