SFT validation loss of minillm

Open lucky1day opened this issue 7 months ago • 1 comments

我用了您sft_base.sh参数；不过由于我用的4卡进行训练，我将BATCH_SIZE设置为8；其余没有参数

但是这个eval的结果我感到非常疑惑；这个eval_avg_loss基本没怎么下降；一直在上升；我看了您的论文中说选择avg_loss最小的checkpoint；但是这种情况是正常的吗？

事实上我调整了很多次参数，经常遇到到训练一段时间，avg_loss就一直在上升；所以我想请教一下这个要怎么解决？

May 26 '25 04:05 lucky1day

你好。总体来说，训练一段时间之后 avg_loss 一直上升是正常现象。不过从图里看起始点应该不是 step=0 的点？如果算上 step=0 的点，第一轮的 loss 应该是下降的。可以尝试减小 learning rate （如 1e-5），一般能获得 avg_loss 更低的 checkpoint。

May 27 '25 20:05 t1101675