pytorch-distributed
pytorch-distributed copied to clipboard
关于损失backward问题
作者大大您好,为何代码中计算梯度的时候用的是loss.backward()而不是reduce_loss.backward() ?
同问