DiffSynth-Studio
DiffSynth-Studio copied to clipboard
zero3保存模型通信错误
sft训练Wan2.1-T2V-14B,开启zero3,在accelerate.yaml中设置了zero3_save_16bit_model: true,存储模型通信卡死,根据日志发现卡死原因,rank 0使用op allgather_base,其他rank使用op allreduce
换用zero2可以正常工作
这是deepspeed的bug吗,还是diffsynth模型需要适配?
@MaxwellDing 非常抱歉,我们暂时不支持 zero3,这需要每个模型都单独适配,但我们目前的人力无法实现这些。