albert_pytorch 关于xlarge模型的batch

关于xlarge模型的batch_size和学习率

Open DunZhang opened this issue 6 years ago • 2 comments

您好，我最近在使用xlarge-albert在自己任务上微调，起初我设置的batch_size是16，学习率是2e-5，然后训练过程中发现loss震荡的厉害，验证集效果极差。然后，我把学习率调低到2e-6，发现效果好一些，但是验证集精度仍然和原始bert有差距。最后，我又继续把学习率调低到2e-7，发现效果又会好一些，但是和原始bert还是有差距。另外和使用albert-base相比也有差距，所以我觉得是训练出了问题。所有我想请教下您，使用xlarge-albert微调时，学习率和batch_size需要设置成多少合适呢？我听说batch_size不能太小，否则可能影响精度，我16的batch_size是否过小了？

Nov 05 '19 01:11 DunZhang

@DunZhang 你结果相差多少呢？我一般都是使用16或者32batch进行实验，还没出现过你说的差距

Nov 05 '19 02:11 lonePatient

@lonePatient 感谢及时回复，我感觉xlarge的albert好难训练，使用xlarge-albert的精度要相差5个百分点左右。也有可能是我的数据集噪声太大了。你使用xlarge-albert使用的时batch_size时16对吗，那初始学习率是多少呢。

Nov 05 '19 09:11 DunZhang

albert_pytorch albert_pytorch copied to clipboard

关于xlarge模型的batch_size和学习率

albert_pytorch
albert_pytorch copied to clipboard