MiniCPM
MiniCPM copied to clipboard
[Bad Case]: 微调MiniCPM 4.1-8B时,其loss显著高于其他模型
Description / 描述
如图第一步loss为500多,在其他模型刚开始的时候都是3-4左右
Case Explaination / 案例解释
No response
是用 bfloat16 训练么?