ChatGLM-6B icon indicating copy to clipboard operation
ChatGLM-6B copied to clipboard

[Help] ChatGLM-6B/ptuning/下面的训练脚本支持多卡训练吗?

Open Dagoli opened this issue 1 year ago • 16 comments

Is there an existing issue for this?

  • [X] I have searched the existing issues

Current Behavior

没有找到多卡训练的代码

Expected Behavior

想请教下是否支持多卡训练

Steps To Reproduce

none

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

Dagoli avatar Apr 07 '23 09:04 Dagoli

CUDA_VISIBLE_DEVICES改成你要用的显卡列表

duzx16 avatar Apr 07 '23 10:04 duzx16

我改成CUDA_VISIBLE_DEVICES=0,1之后,会卡死等很久,然后自动中断

Dagoli avatar Apr 07 '23 10:04 Dagoli

@duzx16

Dagoli avatar Apr 07 '23 10:04 Dagoli

我改成CUDA_VISIBLE_DEVICES=0,1之后,会卡死等很久,然后自动中断

我刚刚测试可以跑。你可以把具体的信息发出来看一下有没有遇到类似的问题的

duzx16 avatar Apr 07 '23 10:04 duzx16

image @duzx16 运行train.sh之后卡一段时间会突然被kill掉,也看不出哪里有问题

Dagoli avatar Apr 10 '23 02:04 Dagoli

image @duzx16 运行train.sh之后卡一段时间会突然被kill掉,也看不出哪里有问题

改成多卡之后对内存和单卡的显存的要求会更高,可以观察一下是不是因为这个原因被kill掉了

lazy2panda avatar Apr 12 '23 03:04 lazy2panda

@duzx16 @lazy2panda 用了最新的deepspeed那个shell脚本,但是卡在了这一步(内存64G,显卡2*32G),是否还需要扩充内存?谢谢两位大佬 image

Dagoli avatar Apr 12 '23 10:04 Dagoli

我也只是改了CUDA_VISIBLE_DEVICES=0,1,然后告诉我cuda满了,我盯着gpu看的,是突然一下就爆了。单卡训练反倒没问题

SixGoodX avatar Apr 12 '23 12:04 SixGoodX

@SixGoodX

我把内存提到64G+32G*2的显卡跑好像也是卡死

Dagoli avatar Apr 13 '23 05:04 Dagoli

我也只是改了CUDA_VISIBLE_DEVICES=0,1,然后告诉我cuda满了,我盯着gpu看的,是突然一下就爆了。单卡训练反倒没问题

我也是这样的问题,多卡直接爆掉。

online2311 avatar Apr 13 '23 06:04 online2311

我用三张32g的卡跑,只有第一张卡的占用率是满的,其他两张卡一直为零,占用的显存也很少,感觉不存在爆显存的问题,但是训练的时候一直卡在0%不动 E3CF2165-EC6F-492a-906B-1A7E3FE37029

TE-Raven avatar Apr 13 '23 09:04 TE-Raven

我用三张32g的卡跑,只有第一张卡的占用率是满的,其他两张卡一直为零,占用的显存也很少,感觉不存在爆显存的问题,但是训练的时候一直卡在0%不动 E3CF2165-EC6F-492a-906B-1A7E3FE37029

@TE-Raven 我换了个更大的内存机器试了下,报GPU OOM

Dagoli avatar Apr 14 '23 01:04 Dagoli

同问,有没有使用 p-tuning v2多卡模型并行的方法 image image

我在加载模型的时候,使用这种方式加载模型的,但是模型并没有在第0号显卡上减小模型,是什么原因呢,如何使用P-tuning v2的训练方式单机多卡训练呢

aihaidong avatar Apr 24 '23 11:04 aihaidong

我也在设置多卡训练,但是不行,我设置os.environ['CUDA_VISIBLE_DEVICES']='0,1,2‘ ,报nvcc的错误

pc123s avatar May 12 '23 08:05 pc123s

显存12G*2 单卡运行占用大约7G,多卡运行直接爆显存了CUDA_VISIBLE_DEVICES=0,1

LnnE23D avatar Jun 02 '23 06:06 LnnE23D

@Dagoli @LnnE23D @pc123s 大佬们,请问这个问题后来是如何解决的?我按照评论区将CUDA_VISIBLE_DEVICES这个进行修改,可是却发现,多卡运行的时间和资源消耗远远大于单卡

niuhuluzhihao avatar Jun 16 '23 16:06 niuhuluzhihao

单机多卡,指定两张卡,我也报OOM错误,有大佬知道怎么解决吗? image

DuBaiSheng avatar Jul 19 '23 02:07 DuBaiSheng

同问,单机双卡,报OOM错误。单卡正常ptuning,设置CUDA_VISIBLE_DEVICES=0,1就报OOM错误。

xiao1014 avatar Jul 20 '23 11:07 xiao1014

同问

wdmmxlbt avatar Aug 07 '23 17:08 wdmmxlbt