xtuner icon indicating copy to clipboard operation
xtuner copied to clipboard

选择四卡训练卡住

Open AlittlePIE opened this issue 1 year ago • 1 comments

使用二卡训练正常,大于2的都会只加载2次模型,然后卡住,不进行训练

AlittlePIE avatar Sep 20 '24 08:09 AlittlePIE

使用二卡训练正常,大于2的都会只加载2次模型,然后卡住,不进行训练

你好,我想请问下,使用2卡训练报错是怎么回事,我的指令式是这个NPROC_PER_NODE=2 xtuner train test_myllama_train.py --deepspeed deepspeed_zero2;显示torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

123yxh avatar Sep 25 '24 07:09 123yxh