mmcv
mmcv copied to clipboard
多机分布式训练时,从节点的环境变量问题
Hello,麻烦请教一下PyTorch多机分布式训练相关的问题~
我尝试采用两台8卡的机器进行MMDetection相关任务的分布式训练,并分别在主节点和从节点上获取某一环境变量。在训练任务启动前,采用shell命令echo $XXX
在两台机器上获得了相同输出;但在python代码中采用os.envrion['XXX']时,只能在主节点上获取该环境变量,从节点找不到相应的变量,想问一下是不是PyTorch分布式执行过程中,或是MMCV的封装过程中修改了从节点的环境变量?
We recommend using English or English & Chinese for issues so that we could have broader discussion.
请问是哪个环境变量
是我们这边应用场景中设置的环境变量。感觉这种问题应该是对所有变量是普遍存在的,我们这个环境变量没有什么特殊之处。
如果是单机分布式,python 的 os.environ 有问题么
单机分布式尝试过的,没有问题
Please @HAOCHENYE have a look.
请问您是如何启动多机多卡训练的,如果方便的话可以提供一下启动训练的脚本。