xiyue961 comments

Results 6 comments of


                                            xiyue961

[BUG] terminate called after throwing an instance of 'std::bad_alloc'

Any updates? I encounted the same problem when finetuning whisper using deepspeed and multiple nodes.

DDP model.join warning ？

> > 可以参考train_utils.py::wenetjoin函数，目前是只对deepspeed打开了，ddp没开，可以把他打开 > > ddp开了wenet_join之后卡住了(AISHELL)： > > ``` > [E ProcessGroupGloo.cpp:137] Rank 1 successfully reached monitoredBarrier, but received errors while waiting for send/recv from rank 0. Please check rank...

DDP model.join warning ？

我出现了好几种情况： 1. train阶段末尾打印这个错误，然后进到evaluate阶段，正常保存模型，进到下一个epoch，这样重复这样是没问题的，但今天重新跑实验是直接训不了 2.train阶段开始的时候就打印这个错误，然后进到evaluate阶段，到下一个epoch这样重复，等于没有训练换了一个云上的环境，又不一样 3.train阶段开始的时候就打印这个错误，然后等半个小时直接退出怎么解决？

DDP model.join warning ？

3的环境使用了共享存储，大规模数据，并且同时有其他程序访问，应该是你说的这个原因另外，3的环境下也试了基于transformers训，可行 2的环境下试了改小num_workers，有用没有改过源码，这个最新的代码，我试下

DDP model.join warning ？

对的，同样的大规模数据，把dataloader改写成了wenet的风格

DDP model.join warning ？

嗯嗯，多谢指点