mmcv icon indicating copy to clipboard operation
mmcv copied to clipboard

多机分布式训练时,从节点的环境变量问题

Open liliangqi opened this issue 2 years ago • 7 comments

Hello,麻烦请教一下PyTorch多机分布式训练相关的问题~

我尝试采用两台8卡的机器进行MMDetection相关任务的分布式训练,并分别在主节点和从节点上获取某一环境变量。在训练任务启动前,采用shell命令echo $XXX在两台机器上获得了相同输出;但在python代码中采用os.envrion['XXX']时,只能在主节点上获取该环境变量,从节点找不到相应的变量,想问一下是不是PyTorch分布式执行过程中,或是MMCV的封装过程中修改了从节点的环境变量?

liliangqi avatar Aug 02 '22 14:08 liliangqi

We recommend using English or English & Chinese for issues so that we could have broader discussion.

mm-assistant[bot] avatar Aug 02 '22 14:08 mm-assistant[bot]

请问是哪个环境变量

zhouzaida avatar Aug 03 '22 02:08 zhouzaida

是我们这边应用场景中设置的环境变量。感觉这种问题应该是对所有变量是普遍存在的,我们这个环境变量没有什么特殊之处。

liliangqi avatar Aug 03 '22 11:08 liliangqi

如果是单机分布式,python 的 os.environ 有问题么

zhouzaida avatar Aug 05 '22 02:08 zhouzaida

单机分布式尝试过的,没有问题

liliangqi avatar Aug 05 '22 08:08 liliangqi

Please @HAOCHENYE have a look.

zhouzaida avatar Aug 10 '22 14:08 zhouzaida

请问您是如何启动多机多卡训练的,如果方便的话可以提供一下启动训练的脚本。

HAOCHENYE avatar Aug 11 '22 13:08 HAOCHENYE