Linly
Linly copied to clipboard
请问在指令微调时损失函数与预训练有什么区别吗
请问在指令微调时损失函数与预训练有什么区别吗?指令微调也是根据前文预测下一个token的概率吗?