mmdetection
mmdetection copied to clipboard
多卡训练卡住,单卡GPU利用率为0,其余100%
如图:
自定义model后,训练总是出现卡住的情况。表现为时而单卡GPU利用率为0,其余皆为100%,训练速度大幅降低
而训练config中配置好的模型就不会出现这个问题
已经尝试export NCCL_P2P_DISABLE=1, 调整num_workers的方案,都没有用
有没有知道该如何解决
训练因为卡住越来越慢,其余卡在等待
想问下解决了吗,遇到了同样的问题。
相同问题
Hello, I also met the problem, could you tell me how do you solve it?
请问该如何解决,我也遇到该问题
请问解决了吗