VisualGLM-6B icon indicating copy to clipboard operation
VisualGLM-6B copied to clipboard

微调模型nccl报错

Open kydbj opened this issue 1 year ago • 1 comments

这是我尝试运行单卡/多卡微调时出现的错误消息。出现了下面这个错误

misc/cudawrap.cc:90 NCCL WARN Failed to find CUDA library in NULL (NCCL_CUDA_PATH=NULL )

image

然后我把cuda文件位置添加到这个 NCCL_CUDA_PATH 变量,运行单卡/多卡微调时还会出错

misc/cudawrap.cc:90 NCCL WARN Failed to find CUDA library in /usr/local/cuda-12.0 (NCCL_CUDA_PATH=/usr/local/cuda-12.0)

image

我在网上找了一个和这个问题相似的提问, https://github.com/NVIDIA/nccl-tests/issues/115

请您看看是什么问题?

kydbj avatar Sep 15 '23 09:09 kydbj

我在其他project里遇到过类似的问题,搜索到了这个issue,具体来说,python包都是正常安装的,但是就是在DDP模型构建的时候出错了,exitcocde=-11。

我尝试了在一开始运行时设置init_process_group的backend为gloo,是可以跑起来的,但是速度会降一些。

回到nccl后端,把pytorch版本降低到1.10.0+cu113(不一定非得是这个,可以多尝试几个版本)之后,运行就正常了,可以试试。@kydbj

zhyx12 avatar Sep 26 '23 09:09 zhyx12