albert_pytorch icon indicating copy to clipboard operation
albert_pytorch copied to clipboard

关于xlarge模型的batch_size和学习率

Open DunZhang opened this issue 6 years ago • 2 comments

您好,我最近在使用xlarge-albert在自己任务上微调,起初我设置的batch_size是16,学习率是2e-5,然后训练过程中发现loss震荡的厉害,验证集效果极差。 然后,我把学习率调低到2e-6,发现效果好一些,但是验证集精度仍然和原始bert有差距。 最后,我又继续把学习率调低到2e-7,发现效果又会好一些,但是和原始bert还是有差距。另外和使用albert-base相比也有差距,所以我觉得是训练出了问题。 所有我想请教下您,使用xlarge-albert微调时,学习率和batch_size需要设置成多少合适呢?我听说batch_size不能太小,否则可能影响精度,我16的batch_size是否过小了?

DunZhang avatar Nov 05 '19 01:11 DunZhang

@DunZhang 你结果相差多少呢? 我一般都是使用16或者32batch进行实验,还没出现过你说的差距

lonePatient avatar Nov 05 '19 02:11 lonePatient

@lonePatient 感谢及时回复,我感觉xlarge的albert好难训练,使用xlarge-albert的精度要相差5个百分点左右。也有可能是我的数据集噪声太大了。你使用xlarge-albert使用的时batch_size时16对吗,那初始学习率是多少呢。

DunZhang avatar Nov 05 '19 09:11 DunZhang