LMOps
LMOps copied to clipboard
SFT validation loss of minillm
我用了您sft_base.sh参数;不过由于我用的4卡进行训练,我将BATCH_SIZE设置为8;其余没有参数
但是这个eval的结果我感到非常疑惑;这个eval_avg_loss基本没怎么下降;一直在上升; 我看了您的论文中说选择avg_loss最小的checkpoint;但是这种情况是正常的吗?
事实上我调整了很多次参数,经常遇到到训练一段时间,avg_loss就一直在上升;所以我想请教一下这个要怎么解决?
你好。总体来说,训练一段时间之后 avg_loss 一直上升是正常现象。不过从图里看起始点应该不是 step=0 的点?如果算上 step=0 的点,第一轮的 loss 应该是下降的。 可以尝试减小 learning rate (如 1e-5),一般能获得 avg_loss 更低的 checkpoint。