UER-py icon indicating copy to clipboard operation
UER-py copied to clipboard

在训练BERT时, Loss突然增大且模型无法继续学习

Open xlxwalex opened this issue 1 year ago • 3 comments

我在训练BERT时使用了BookCorpus+Wikipedia-en数据,训练参数设置了batch_size=5120,warmup=0.1,learning_rate=4e-4,使用deep_init,没有用混合精度,steps(计算了40个epochs)=240k。但是在127k步左右突然Loss增大性能下降,且之后模型停止学习。请问这个可能是什么原因导致? (Log如下所示)

B0XI4S(0F6A~WNMT{EC8BJF 之后模型就一直无法学习了 33~Q)}R R54A)3U1V9BOC5I

xlxwalex avatar Aug 05 '22 05:08 xlxwalex

模型用的哪个配置呢?可能是lr太大

hhou435 avatar Aug 05 '22 05:08 hhou435

用的是Base的,因为batch_size比较大所以稍微放大了一点

xlxwalex avatar Aug 05 '22 05:08 xlxwalex

模型用的哪个配置呢?可能是lr太大

我尝试一下用更小的lr再试一下,谢谢您的回复!

xlxwalex avatar Aug 05 '22 05:08 xlxwalex