Baichuan2
Baichuan2 copied to clipboard
全参数继续预训练与lora微调时,应该怎么样设置学习率呢?
有没有相应的试验或者论文呢?