MiniCPM
MiniCPM copied to clipboard
WSD学习率退火阶段结束后loss还在保持下降趋势
感谢你们的工作,注意到你们提到的WSD优化器,退火阶段loss还在下降,并且下降趋势没有放缓。
这时候是否需要增加数据固定0.1 lr继续退火阶段,以达到更低的loss?

退火阶段的学习率具体是线性,还是指数呢?如果是指数的话,T和N的关系是什么呢?

以上文字来自于minicpm的官方技术博客,说明了退火阶段的学习率是指数衰减的。
另外W(N,80N,8N),括号中第一个N代表warm_up的步数,第二参数80N代表stable的步数,第三个参数8N代表退火的步数。