dashun0571
dashun0571
老哥,这个问题 你解决了么
降低image_max_pixels,提高cutoff_len 试试
基本可以肯定是deepspeed的问题,如果把训练的配置文件deepspeed: examples/deepspeed/ds_z0_config.json # choices: [ds_z0_config.json, ds_z2_config.json, ds_z3_config.json] 注释了,就可以正常启动了。deepspeed 尝试了 推荐的0.13.2版本,依然无法正常运行。
> 请问问题解决了吗 没有解决,是不是你也遇到类似的问题了?换了好几个版本的 torch,torh-npu,deepspeed,CANN,都不成功,必须注释才能跑通,但是注释后,显存又不够用。。。
deepspeed 如果实在不行的话,可以考虑FSDP模式。这个亲测是可以的。
> > deepspeed 如果实在不行的话,可以考虑FSDP模式。这个亲测是可以的。 > > 多机多卡吗bro? 我只有单机多卡,单机多卡FSDP是可以的