mmdetection icon indicating copy to clipboard operation
mmdetection copied to clipboard

多卡训练卡住,单卡GPU利用率为0,其余100%

Open WangJian981002 opened this issue 1 year ago • 6 comments

如图: image 自定义model后,训练总是出现卡住的情况。表现为时而单卡GPU利用率为0,其余皆为100%,训练速度大幅降低

而训练config中配置好的模型就不会出现这个问题

已经尝试export NCCL_P2P_DISABLE=1, 调整num_workers的方案,都没有用

有没有知道该如何解决

WangJian981002 avatar Jul 05 '24 05:07 WangJian981002

image 训练因为卡住越来越慢,其余卡在等待

WangJian981002 avatar Jul 05 '24 08:07 WangJian981002

想问下解决了吗,遇到了同样的问题。

kimsolo avatar Jul 31 '24 08:07 kimsolo

相同问题

DemoGit4LIANG avatar Mar 07 '25 06:03 DemoGit4LIANG

Hello, I also met the problem, could you tell me how do you solve it?

Jctrp avatar Apr 24 '25 13:04 Jctrp

请问该如何解决,我也遇到该问题

Hfhstrive avatar Aug 18 '25 05:08 Hfhstrive

请问解决了吗

lovekdl avatar Nov 12 '25 01:11 lovekdl