LMOps icon indicating copy to clipboard operation
LMOps copied to clipboard

SFT validation loss of minillm

Open lucky1day opened this issue 7 months ago • 1 comments

我用了您sft_base.sh参数;不过由于我用的4卡进行训练,我将BATCH_SIZE设置为8;其余没有参数

但是这个eval的结果我感到非常疑惑;这个eval_avg_loss基本没怎么下降;一直在上升; 我看了您的论文中说选择avg_loss最小的checkpoint;但是这种情况是正常的吗?

事实上我调整了很多次参数,经常遇到到训练一段时间,avg_loss就一直在上升;所以我想请教一下这个要怎么解决?

Image

lucky1day avatar May 26 '25 04:05 lucky1day

你好。总体来说,训练一段时间之后 avg_loss 一直上升是正常现象。不过从图里看起始点应该不是 step=0 的点?如果算上 step=0 的点,第一轮的 loss 应该是下降的。 可以尝试减小 learning rate (如 1e-5),一般能获得 avg_loss 更低的 checkpoint。

t1101675 avatar May 27 '25 20:05 t1101675