stoneni

Results 2 comments of stoneni

> gpushare scheduler负责按照显存维度为单位,在集群中去调度作业,也就是找到哪个node上的哪块GPU卡还能提供作业所需显存大小。作业pod被调度到node上,会绑定合适的GPU卡到容器内。此时调度就完成了。 如果需要在容器内限制进程实际使用的显存量,还需要配合GPU隔离,这个就不在调度器的能力里了。 实现node上单GPU卡显存隔离的方案可以参考阿里云的cGPU,或Nivdia的MPS,或Nvidia A100的MIG等等 阿里cGPU方案有开源吗?

这个项目应该只是利用K8s的设备插件机制上报GPU资源,包括卡数和显存,再利用k8s的调度扩展机制自定义个调度器调度到某个node节点的某个卡上而已。至于限制那是类似cGroups机制实现。应该是kernel+GPu Driver层面去优雅的实现。或者用户态的CUDA劫持去实现。个人还是倾向于前者。或者Nvidia的MIG方案。但MIG支持显卡种类有限。