t5-pegasus-chinese icon indicating copy to clipboard operation
t5-pegasus-chinese copied to clipboard

关于finetune的学习率

Open L-Zhe opened this issue 2 years ago • 1 comments

看到作者脚本里面finetune的学习率是2e-4,会不会太大了?预训练一般都是设置3e-5左右?需不需要用warmup?

L-Zhe avatar Nov 27 '21 07:11 L-Zhe

您好~ 我们常用的学习率是5e-5,用于BERT。但由于架构差异,T5的学习率要大10倍才行,所以用了2e-4。

SunnyGJing avatar Apr 17 '22 15:04 SunnyGJing