AlexPei
Results
1
comments of
AlexPei
公司:华为 联系方式:597956597 使用场景:测试多个深度学习推理服务(多容器)共享单卡资源的隔离情况,对提高稀缺资源的利用率有很大帮助 发现有几个问题点: 1:持续增大并发请求,显存持续增加,停掉压测,显存不释放;物理机上服务部署不会出现持续增加的情况 2:GPU算力单元的利用率会超过设置的值(比如单卡切分为2卡,显存是控制住了50%,但算力利用率会超过50%) GPU利用率如何如何和具体的容器进程,pod,deployment、service对象关联起并可视化展示是个可深入探讨的点 感谢开源社区,贡献者的辛勤付出,点赞