xtuner
xtuner copied to clipboard
多卡训练问题
感谢开发者们打造了这么好用的开源训练框架。
目前在自己的电脑上复现训练营的内容,尝试使用多卡微调internLM的时候会报错。
NPROC_PER_NODE=2 xtuner train ./internlm_chat_7b_qlora_oasst1_e3_copy.py
遇到的错误,自己尝试了1.8b的模型和7b的模型都有这个错误,模型都是从huggingface上面下载的。
但是单卡训练是可以的。
目前的环境(节选了报错信息中含有的包)
torch 2.1.2
transformers 4.36.2
xtuner 0.1.18
peft 0.9.0
mmengine 0.10.4
accelerate 0.29.3