ADRNet
ADRNet copied to clipboard
关于多步训练的一些问题
作者大大您好,我在复现代码时发现,最后一步离线训练微调FC时,为什么FC微调之后性能反而下降了,请问这里面是有什么不同的参数设置或者技巧吗?微调FC时,所有的FC layers的学习率设置的都是一样的吗?
希望作者看到以后可以回复一下~非常感谢!
所有学习率都是一样的,需要把学习率调小至1e-5, 我在训练的时候没看到下降的情况,之前的层freeze了嘛
freeze了,我把grad_require限定为只有fc更新,训练完以后,测试效果还不如不微调。请问您微调fc时,训练轮数也是和之前步骤的训练轮数都保持一致了吗?
对的,但达到最好效果的模型可能不是最后一个iteration,你可以测试下早些iteration的效果
好的,非常感谢您能回复~