UER-py 新代码多机多卡会卡死

用半个月前的代码还行，最近更新的代码会在模型开始的时候卡死，log 如下，四台机器到了这一步之后就卡死了。

2022-06-06 17:06:30.084 ts-3b9674b191ea46a69359406136b6418c-launcher:1076:1076 [0] NCCL INFO Launch mode Parallel

2022-06-06 17:06:30.148 [2022-06-06 17:06:30,147 INFO] Worker 0 is training ...

2022-06-06 17:06:30.149 [2022-06-06 17:06:30,149 INFO] Worker 3 is training ...

2022-06-06 17:06:30.207 [2022-06-06 17:06:30,207 INFO] Worker 1 is training ...

2022-06-06 17:06:30.207 [2022-06-06 17:06:30,207 INFO] Worker 7 is training ...

2022-06-06 17:06:30.208 [2022-06-06 17:06:30,208 INFO] Worker 6 is training ...

2022-06-06 17:06:30.209 [2022-06-06 17:06:30,208 INFO] Worker 4 is training ...

2022-06-06 17:06:30.209 [2022-06-06 17:06:30,209 INFO] Worker 5 is training ...

2022-06-06 17:06:30.209 [2022-06-06 17:06:30,209 INFO] Worker 2 is training ...

Jun 06 '22 09:06 seeledu

您好，请问单卡运行正常吗，最近项目更新了dataloader和dataset，如果使用旧的代码处理的数据和新的代码可能不兼容

Jun 06 '22 09:06 hhou435

可能是因为我用了旧的代码处理数据，重新处理一遍代价比较大，我还是用旧代码好了。BTW，我想让模型记录跑过哪些数据，这样方便中断后继续运行，请问修改代码有建议的地方吗，因为我看这个框架的data 加载似乎没有用distribute sampler。

Jun 06 '22 10:06 seeledu

可能是因为我用了旧的代码处理数据，重新处理一遍代价比较大，我还是用旧代码好了。BTW，我想让模型记录跑过哪些数据，这样方便中断后继续运行，请问修改代码有建议的地方吗，因为我看这个框架的data 加载似乎没有用distribute sampler。

新的代码对dataset和dataloader进行了优化，能够大幅度减少dataset.pt的大小，非常建议用新版本哈关于模型中断后重新运行，这个需要考虑的比较多，包括模型的存储和加载，优化器、数据等，修改难度比较高。这个后续我们会加入相关功能

Jun 06 '22 12:06 zhezhaoa

很遗憾，我花了四天重新处理完之后，只减少了11G同时多机多卡还是用不了。。。。。

Jun 10 '22 17:06 seeledu

很遗憾，我花了四天重新处理完之后，只减少了11G同时多机多卡还是用不了。。。。。

请确保多机的的环境是完全一致的

并且部分pytorch版本可能会导致多机卡住，可以更换pytorch版本 https://github.com/pytorch/pytorch/issues/17745

Jun 11 '22 17:06 zhezhaoa

多机多卡版本一致的，pytorch1.10是版本，在dataloader优化前是可以多机多卡的，推测是这部分代码没有考虑多机多卡的情况？

Jun 14 '22 07:06 seeledu

UER-py UER-py copied to clipboard