mango

Results 41 comments of mango

> 你上面用的 fp16 下面用的 bf16 使用低的epoch输出,效果还行;就是finetune微调epoch大一些会有过拟合问题、LLama-factorty就没有过拟合现象,这个问题会因为什么呢?两者的训练过程,loss下降趋势和最终收敛的值几乎一致的,表现应该也一样才对啊。