kev
kev
> 这里传进来的 lr 不是固定 float值,而是paddle 里的一个 variable,是会 好的感谢
> LN 一般都是不会参与 weight decay 的 可以参考这个讨论:https://discuss.pytorch.org/t/weight-decay-only-for-weights-of-nn-linear-and-nn-conv/114348 我在使用paddle训练的时候 loss很快降低刀3.4左右,然后就一直在这个区间波动,感觉模型前期收敛过快,后面又没有很好地训练。
> 请问你转换话题的时候效果如何? 我这边发现话题转换效果轿车。。。
> 我这边测试转换话题时,机器人的回复还是聚焦在话题转换前的问题上,你呢? 较差哈,是的,我和你一样。
> 可以参考这个 issue:#75 好的,感谢,另外plato2是完全从头训练的是吧,有用在百科上预训练的Bert的参数吗?