HAMi icon indicating copy to clipboard operation
HAMi copied to clipboard

GPU调度无法执行

Open hellobiek opened this issue 2 years ago • 3 comments

目前已经安装了该补丁,发现一个问题。

  1. 我自己本机有2块GPU配置,在配置GPU的时候,如果配置<=2,则可以调度成功。但是一旦配置>2,那就无法调度成功。

hellobiek avatar Aug 15 '22 02:08 hellobiek

这个是正常的现象,每个GPU节点上可分配的任务,所使用的GPU数量不能大于节点实际的GPU数量

archlitchi avatar Aug 15 '22 05:08 archlitchi

但是实际上,我对GPU划分成了16个VGPU,所以当一个pod申请VGPU:5的时候,我期望的是他使用5*5GB的大小显存。

但是在你们的设计逻辑里,必须要有5块真实的GPU卡,才可以使用VGPU:5的配置。

hellobiek avatar Aug 15 '22 07:08 hellobiek

vGPU:5表示使用5张vGPU,也就是说在容器里面使用nvidia-smi看到的是5张卡,但是你的节点只有2张卡物理GPU,所以并不能做到这一点。你这个场景可以通过设置显存放大16倍,然后任务直接申请25G来做

archlitchi avatar Aug 15 '22 09:08 archlitchi

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs.

github-actions[bot] avatar Apr 02 '24 20:04 github-actions[bot]

fixed

hellobiek avatar Apr 03 '24 07:04 hellobiek