minimind
minimind copied to clipboard
梯度累计问题
作者在训练中使用了梯度累积,但是学习率却在trainer_loder的的每个step都有下降,理应在每次梯度下降是更新学习率,而不是每次step。 同样的问题出现在模型保存和日志打印中,interval应该为梯度下降次数为单位,而不是step