Knover
Knover copied to clipboard
plato-2优化函数为AdamW,我看lr有对应的衰减策略,但是weight_decay则没有
plato-2优化函数为AdamW,我看lr有对应的衰减策略,但是weight_decay则没有,是不需要吗?同时我看layer_norm相关参数,是没有用到weight_decay策略的,是有什么考虑吗?
https://github.com/PaddlePaddle/Knover/blob/ac58d760973cacb163b5dc5e1be0b7c54ca75140/knover/core/model.py#L398 感觉你理解错了代码?这里传进来的 lr 不是固定 float值,而是paddle 里的一个 variable,是会变化的
LN 一般都是不会参与 weight decay 的 可以参考这个讨论:https://discuss.pytorch.org/t/weight-decay-only-for-weights-of-nn-linear-and-nn-conv/114348
这里传进来的 lr 不是固定 float值,而是paddle 里的一个 variable,是会
好的感谢
LN 一般都是不会参与 weight decay 的 可以参考这个讨论:https://discuss.pytorch.org/t/weight-decay-only-for-weights-of-nn-linear-and-nn-conv/114348
我在使用paddle训练的时候 loss很快降低刀3.4左右,然后就一直在这个区间波动,感觉模型前期收敛过快,后面又没有很好地训练。