cube-studio
cube-studio copied to clipboard
怎么支持gpu机器加入集群,能被正常调度
集群能调度gpu节点,需要几个层次的支持。 1、gpu机器上gpu驱动的正常安装,能在机器上nvidia-smi 出现gpu卡的信息 2、docker-nvidia2的正常安装,不能用最新版的gpu docker 的方式,因为k8s还不支持,所以目前必须要docker-nvidia2。并且配置好docker的配置信息,参考https://github.com/tencentmusic/cube-studio/blob/master/install/kubernetes/rancher/init_node_gpu.sh 3、在k8s中安装好nvidia-device-plugin,或者安装vgpu的插件,并且在机器上添加gpu标签。gpu=true,gpu-type=xx,xx是用来 表示gpu卡的类型,比如xx为V100,T4之类, 这样就能在k8s中申请gpu了。参考:https://github.com/tencentmusic/cube-studio/tree/master/install/kubernetes/gpu 4、这样就可以在界面上申请gpu算力了,并且支持异构gpu环境的占用,比如占用1张V100,,可以写申请gpu大小那里写:1(V100)