t5-pegasus-chinese
t5-pegasus-chinese copied to clipboard
关于finetune的学习率
看到作者脚本里面finetune的学习率是2e-4,会不会太大了?预训练一般都是设置3e-5左右?需不需要用warmup?
您好~ 我们常用的学习率是5e-5,用于BERT。但由于架构差异,T5的学习率要大10倍才行,所以用了2e-4。