zgu293

Results 3 comments of zgu293

> > 使用transformers的trainer进行训练的时候,当不开fp16=True的时候,是可以train起来的,但是跑着跑着loss会变成0。我认为是在使用prepare model for int8 training的时候需要调整layer norm的数据类型到float32,为了训练的稳定性。而在调整layernorm到float32后,就会出现expected scalar type half but found float。(bloom里的LayerNorm叫layernorm而不是layer_norm) > > 我参考项目代码设置fp16=Fasle单机多卡训练bloom lora可以跑的起来,但是跑着loss变成0和nan没法收敛。请问下你找到解决方法了吗 有没有找到解决办法啊

> 使用transformers的trainer进行训练的时候,当不开fp16=True的时候,是可以train起来的,但是跑着跑着loss会变成0。我认为是在使用prepare model for int8 training的时候需要调整layer norm的数据类型到float32,为了训练的稳定性。而在调整layernorm到float32后,就会出现expected scalar type half but found float。(bloom里的LayerNorm叫layernorm而不是layer_norm) 有没有找到解决办法啊,可以分享一下吗