Knover icon indicating copy to clipboard operation
Knover copied to clipboard

plato-2优化函数为AdamW,我看lr有对应的衰减策略,但是weight_decay则没有

Open kev1876 opened this issue 3 years ago • 4 comments

plato-2优化函数为AdamW,我看lr有对应的衰减策略,但是weight_decay则没有,是不需要吗?同时我看layer_norm相关参数,是没有用到weight_decay策略的,是有什么考虑吗? image

kev1876 avatar Sep 27 '21 03:09 kev1876

https://github.com/PaddlePaddle/Knover/blob/ac58d760973cacb163b5dc5e1be0b7c54ca75140/knover/core/model.py#L398 感觉你理解错了代码?这里传进来的 lr 不是固定 float值,而是paddle 里的一个 variable,是会变化的

sserdoubleh avatar Sep 28 '21 06:09 sserdoubleh

LN 一般都是不会参与 weight decay 的 可以参考这个讨论:https://discuss.pytorch.org/t/weight-decay-only-for-weights-of-nn-linear-and-nn-conv/114348

sserdoubleh avatar Sep 28 '21 06:09 sserdoubleh

这里传进来的 lr 不是固定 float值,而是paddle 里的一个 variable,是会

好的感谢

kev1876 avatar Oct 08 '21 09:10 kev1876

LN 一般都是不会参与 weight decay 的 可以参考这个讨论:https://discuss.pytorch.org/t/weight-decay-only-for-weights-of-nn-linear-and-nn-conv/114348

我在使用paddle训练的时候 loss很快降低刀3.4左右,然后就一直在这个区间波动,感觉模型前期收敛过快,后面又没有很好地训练。

kev1876 avatar Oct 08 '21 09:10 kev1876