Knover plato-2优化函数为AdamW，我看lr有对应的衰减策略，但是weight

plato-2优化函数为AdamW，我看lr有对应的衰减策略，但是weight_decay则没有

Open kev1876 opened this issue 3 years ago • 4 comments

plato-2优化函数为AdamW，我看lr有对应的衰减策略，但是weight_decay则没有，是不需要吗？同时我看layer_norm相关参数，是没有用到weight_decay策略的，是有什么考虑吗?

Sep 27 '21 03:09 kev1876

https://github.com/PaddlePaddle/Knover/blob/ac58d760973cacb163b5dc5e1be0b7c54ca75140/knover/core/model.py#L398 感觉你理解错了代码？这里传进来的 lr 不是固定 float值，而是paddle 里的一个 variable，是会变化的

Sep 28 '21 06:09 sserdoubleh

LN 一般都是不会参与 weight decay 的可以参考这个讨论：https://discuss.pytorch.org/t/weight-decay-only-for-weights-of-nn-linear-and-nn-conv/114348

Sep 28 '21 06:09 sserdoubleh

这里传进来的 lr 不是固定 float值，而是paddle 里的一个 variable，是会

好的感谢

Oct 08 '21 09:10 kev1876

LN 一般都是不会参与 weight decay 的可以参考这个讨论：https://discuss.pytorch.org/t/weight-decay-only-for-weights-of-nn-linear-and-nn-conv/114348

我在使用paddle训练的时候 loss很快降低刀3.4左右，然后就一直在这个区间波动，感觉模型前期收敛过快，后面又没有很好地训练。

Oct 08 '21 09:10 kev1876

Knover Knover copied to clipboard

plato-2优化函数为AdamW，我看lr有对应的衰减策略，但是weight_decay则没有

Knover
Knover copied to clipboard