Wang Hao
Results
32
comments of
Wang Hao
首先,没看懂你这个问题要问的究竟是什么。多卡训练的时候就应该只有主进程保存checkpoint,多个进程写入会导致文件损坏;并且多卡训练参数同步,为何要其他卡也保存检查点? 其次,args.should_save为True的条件之一是主进程,你这里额外加的判断冗余了。
好像只有你遇到了这个问题,如果没有改动代码太多,建议排查一下多卡训练的启动是否正确。