CRA-PCN icon indicating copy to clipboard operation
CRA-PCN copied to clipboard

你好,请问怎么设置多卡分布式训练,我设置的DDP跑起来LOSS值非常大,几千上万了,这正常吗?

Open zzyykk725 opened this issue 10 months ago • 1 comments

请问怎么开多卡训练呢?我设置了 os.environ['CUDA_VISIBLE_DEVICES'] = '4,5,6,7' 和 __C.CONST.DEVICE = '4,5,6,7' 运行脚本python train_pcn.py 一直没反应

你好,请问你这问题解决了吗,我无论怎么设置这个os.environ['CUDA_VISIBLE_DEVICES']都没用,都会默认分布,而且还是不均匀的

我修改代码设置了分布式训练,跑起来的时候是可以均匀分布的

你好如何修改的,可以发下吗?

你留一下邮箱,我去实验室的时候copy发给你

Originally posted by @WentangChen in #11

我单卡跑也是正常的,都是几十,麻烦发一下多卡设置的代码,[email protected]

zzyykk725 avatar Feb 19 '25 04:02 zzyykk725

抱歉,不支持DDP训练。你可以参考PoinTr搞一个。或者把model迁移到PoinTr的框架下。

EasyRy avatar Mar 14 '25 17:03 EasyRy