DunZhang issues

Results 2 issues of


                                            DunZhang

关于xlarge模型的batch_size和学习率

您好，我最近在使用xlarge-albert在自己任务上微调，起初我设置的batch_size是16，学习率是2e-5，然后训练过程中发现loss震荡的厉害，验证集效果极差。然后，我把学习率调低到2e-6，发现效果好一些，但是验证集精度仍然和原始bert有差距。最后，我又继续把学习率调低到2e-7，发现效果又会好一些，但是和原始bert还是有差距。另外和使用albert-base相比也有差距，所以我觉得是训练出了问题。所有我想请教下您，使用xlarge-albert微调时，学习率和batch_size需要设置成多少合适呢？我听说batch_size不能太小，否则可能影响精度，我16的batch_size是否过小了？

关于微调代码的疑问

源代码如下： ``` class ModifiedTrainer(Trainer): def compute_loss(self, model, inputs, return_outputs=False): return model( input_ids=inputs["input_ids"], attention_mask=torch.ones_like(inputs["input_ids"]).bool(), labels=inputs["input_ids"], ).loss ``` 疑问1：这里的attention mask不应该是下三角或者unilm那种吗？疑问2：这里的labels不需要把一部分设置为-100吗？