xtuner icon indicating copy to clipboard operation
xtuner copied to clipboard

多卡训练问题

Open liuxiao916 opened this issue 10 months ago • 0 comments

感谢开发者们打造了这么好用的开源训练框架。

目前在自己的电脑上复现训练营的内容,尝试使用多卡微调internLM的时候会报错。

NPROC_PER_NODE=2 xtuner train ./internlm_chat_7b_qlora_oasst1_e3_copy.py

遇到的错误,自己尝试了1.8b的模型和7b的模型都有这个错误,模型都是从huggingface上面下载的。 image

但是单卡训练是可以的。

目前的环境(节选了报错信息中含有的包)

torch                     2.1.2
transformers              4.36.2
xtuner                    0.1.18
peft                      0.9.0 
mmengine                  0.10.4 
accelerate                0.29.3

liuxiao916 avatar Apr 24 '24 13:04 liuxiao916