GLM icon indicating copy to clipboard operation
GLM copied to clipboard

我基于10B模型做继续训练,loss只从11下降到5

Open TccccD opened this issue 2 years ago • 6 comments

我基于10B模型做继续训练,loss只从11下降到5后。一般来讲,最终loss收敛后是多少。 我用了12w文本,其中文本长度平均在5000。训练参数: gpus=8 max length=1024 batchsize=8 梯度累计=2 lr=7e-6 总的iter=5000,约等于5个epochs

@jeffra @samyam @tjruwase @WrRan

TccccD avatar Apr 16 '23 09:04 TccccD