DINO
DINO copied to clipboard
使用run_with_submitit.py训练的问题
作者您好,我在使用DINO_train_submitit.sh脚本训练的时候,我sh里定义--ngpus 2 或者--ngpus 4,我的电脑里有4个gpu,并且我print了一些信息,看见分配的时候也是每个进程各分配一张gpu,但训练起来的时候就出现多个进程同时占用同一个gpu显存的问题,导致前几个进程直接崩溃,只留下最后一个进程在那里训练。我想问一下这个问题怎么解决呢,谢谢!
我也碰到这个问题,您是怎么解决的?谢谢!
作者您好,我在使用DINO_train_submitit.sh脚本训练的时候,我sh里定义--ngpus 2 或者--ngpus 4,我的电脑里有4个gpu,并且我print了一些信息,看见分配的时候也是每个进程各分配一张gpu,但训练起来的时候就出现多个进程同时占用同一个gpu显存的问题,导致前几个进程直接崩溃,只留下最后一个进程在那里训练。我想问一下这个问题怎么解决呢,谢谢!
训练后只出现一个Submitted job_id并且只有一张卡在使用,但是设置了--ngpus 2。怎么查看训练情况并且让gpu都跑起来,您解决了吗?谢谢!
您发给我的信件已经收到,谢谢您的来信!