Xueyun Tian
Xueyun Tian
Qwen2.5-Omni 多轮多video/audio的时候,单机多卡z3会卡住,z2+lora不会。但z2+lora在多机多卡的时候会卡住。就是会特别特别特别慢,然后最后报错是NCCL通信超时。
> > > 我也遇到了同样的问题: 使用音频+文本混合数据训练,采用 deepspeed zero3,在训练开始时卡住不动,GPU利用率是100%。 但采用 deepspeed zero2 能正常训练。 目前试了很多 deepspeed版本,均无法正常使用 zero3。 > > > > > > dpo吗 > > 不是dpo,是全量 sft。 同SFT卡住,请问解决了吗?
更新,后续尝试了: ``` buffer_size: 16 preprocessing_batch_size: 16 preprocessing_num_workers: 16 dataloader_num_workers: 16 ``` 内存依旧会缓慢上涨然后爆掉。 llamafactry:0.9.3.dev0 datasets:3.5.0 请大佬帮忙看看plz