xiyue961
xiyue961
Any updates? I encounted the same problem when finetuning whisper using deepspeed and multiple nodes.
> > 可以参考train_utils.py::wenetjoin函数,目前是只对deepspeed打开了,ddp没开,可以把他打开 > > ddp开了wenet_join之后卡住了(AISHELL): > > ``` > [E ProcessGroupGloo.cpp:137] Rank 1 successfully reached monitoredBarrier, but received errors while waiting for send/recv from rank 0. Please check rank...
我出现了好几种情况: 1. train阶段末尾打印这个错误,然后进到evaluate阶段,正常保存模型,进到下一个epoch,这样重复 这样是没问题的,但今天重新跑实验是直接训不了 2.train阶段开始的时候就打印这个错误,然后进到evaluate阶段,到下一个epoch这样重复,等于没有训练 换了一个云上的环境,又不一样 3.train阶段开始的时候就打印这个错误,然后等半个小时直接退出 怎么解决?
3的环境使用了共享存储,大规模数据,并且同时有其他程序访问,应该是你说的这个原因 另外,3的环境下也试了基于transformers训,可行 2的环境下试了改小num_workers,有用 没有改过源码,这个最新的代码,我试下
对的,同样的大规模数据,把dataloader改写成了wenet的风格
嗯嗯,多谢指点