DiffSynth-Studio icon indicating copy to clipboard operation
DiffSynth-Studio copied to clipboard

zero3保存模型通信错误

Open MaxwellDing opened this issue 2 months ago • 1 comments

sft训练Wan2.1-T2V-14B,开启zero3,在accelerate.yaml中设置了zero3_save_16bit_model: true,存储模型通信卡死,根据日志发现卡死原因,rank 0使用op allgather_base,其他rank使用op allreduce

换用zero2可以正常工作

这是deepspeed的bug吗,还是diffsynth模型需要适配?

MaxwellDing avatar Oct 27 '25 10:10 MaxwellDing

@MaxwellDing 非常抱歉,我们暂时不支持 zero3,这需要每个模型都单独适配,但我们目前的人力无法实现这些。

Artiprocher avatar Oct 30 '25 06:10 Artiprocher