DunZhang

Results 2 issues of DunZhang

您好,我最近在使用xlarge-albert在自己任务上微调,起初我设置的batch_size是16,学习率是2e-5,然后训练过程中发现loss震荡的厉害,验证集效果极差。 然后,我把学习率调低到2e-6,发现效果好一些,但是验证集精度仍然和原始bert有差距。 最后,我又继续把学习率调低到2e-7,发现效果又会好一些,但是和原始bert还是有差距。另外和使用albert-base相比也有差距,所以我觉得是训练出了问题。 所有我想请教下您,使用xlarge-albert微调时,学习率和batch_size需要设置成多少合适呢?我听说batch_size不能太小,否则可能影响精度,我16的batch_size是否过小了?

源代码如下: ``` class ModifiedTrainer(Trainer): def compute_loss(self, model, inputs, return_outputs=False): return model( input_ids=inputs["input_ids"], attention_mask=torch.ones_like(inputs["input_ids"]).bool(), labels=inputs["input_ids"], ).loss ``` 疑问1:这里的attention mask不应该是下三角或者unilm那种吗? 疑问2:这里的labels不需要把一部分设置为-100吗?