stoneni comments

Results 2 comments of


                                            stoneni

分配8G 但是实际使用不会限制在8G内

> gpushare scheduler负责按照显存维度为单位，在集群中去调度作业，也就是找到哪个node上的哪块GPU卡还能提供作业所需显存大小。作业pod被调度到node上，会绑定合适的GPU卡到容器内。此时调度就完成了。如果需要在容器内限制进程实际使用的显存量，还需要配合GPU隔离，这个就不在调度器的能力里了。实现node上单GPU卡显存隔离的方案可以参考阿里云的cGPU，或Nivdia的MPS，或Nvidia A100的MIG等等阿里cGPU方案有开源吗？

分配8G 但是实际使用不会限制在8G内

这个项目应该只是利用K8s的设备插件机制上报GPU资源，包括卡数和显存，再利用k8s的调度扩展机制自定义个调度器调度到某个node节点的某个卡上而已。至于限制那是类似cGroups机制实现。应该是kernel+GPu Driver层面去优雅的实现。或者用户态的CUDA劫持去实现。个人还是倾向于前者。或者Nvidia的MIG方案。但MIG支持显卡种类有限。