HAMi icon indicating copy to clipboard operation
HAMi copied to clipboard

监控vGPU使用情况

Open hellobiek opened this issue 2 years ago • 4 comments

根据下面的文字,貌似智能看到实际试使用情况,已分配的情况应该怎么看呢?

调度器部署成功后,监控默认自动开启,你可以通过

http://{nodeip}:{monitorPort}/metrics 来获取监控数据,其中monitorPort可以在Values中进行配置,默认为31992

注意 节点上的vGPU状态只有在其使用vGPU后才会被统计

hellobiek avatar Aug 14 '22 09:08 hellobiek

curl http://10.0.179.227:31992/metrics

HELP HostCoreUtilization GPU core utilization

TYPE HostCoreUtilization gauge

HostCoreUtilization{deviceid="0",deviceuuid="GPU-XXXX01",zone="vGPU"} 0 HostCoreUtilization{deviceid="1",deviceuuid="GPU-XXXX02",zone="vGPU"} 0

HELP HostGPUMemoryUsage GPU device memory usage

TYPE HostGPUMemoryUsage gauge

HostGPUMemoryUsage{deviceid="0",deviceuuid="GPU-XXXX01",zone="vGPU"} 815 HostGPUMemoryUsage{deviceid="1",deviceuuid="GPU-XXXX02",zone="vGPU"} 815

hellobiek avatar Aug 14 '22 10:08 hellobiek

vgpu-device-plugin-monitor NodePort 192.168.26.123 31992:31992/TCP
vgpu-scheduler NodePort 192.168.153.89 443:32085/TCP,1080:30264/TCP,31993:31993/TCP

这个vgpu-scheduler 是干什么的?

hellobiek avatar Aug 14 '22 10:08 hellobiek

vgpu-scheduler是调度GPU的调度器插件,31993端口是用来调试该插件用的端口

archlitchi avatar Aug 15 '22 05:08 archlitchi

您好,这个443端口对应的服务,是一个可视化的界面吗? 另外,怎么查看vgpu的实时分配情况。

hellobiek avatar Aug 15 '22 07:08 hellobiek

问题已经解决?

hellobiek avatar Apr 19 '23 13:04 hellobiek