ChatGLM-6B [Help] ChatGLM-6B/ptuning/下面的训练脚本支持多卡训练吗？

Is there an existing issue for this?

[X] I have searched the existing issues

Current Behavior

没有找到多卡训练的代码

Expected Behavior

想请教下是否支持多卡训练

Steps To Reproduce

none

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

Apr 07 '23 09:04 Dagoli

把CUDA_VISIBLE_DEVICES改成你要用的显卡列表

Apr 07 '23 10:04 duzx16

我改成CUDA_VISIBLE_DEVICES=0,1之后，会卡死等很久，然后自动中断

Apr 07 '23 10:04 Dagoli

@duzx16

Apr 07 '23 10:04 Dagoli

我改成CUDA_VISIBLE_DEVICES=0,1之后，会卡死等很久，然后自动中断

我刚刚测试可以跑。你可以把具体的信息发出来看一下有没有遇到类似的问题的

Apr 07 '23 10:04 duzx16

@duzx16 运行train.sh之后卡一段时间会突然被kill掉，也看不出哪里有问题

Apr 10 '23 02:04 Dagoli

@duzx16 运行train.sh之后卡一段时间会突然被kill掉，也看不出哪里有问题

改成多卡之后对内存和单卡的显存的要求会更高，可以观察一下是不是因为这个原因被kill掉了

Apr 12 '23 03:04 lazy2panda

@duzx16 @lazy2panda 用了最新的deepspeed那个shell脚本，但是卡在了这一步（内存64G，显卡2*32G），是否还需要扩充内存？谢谢两位大佬

Apr 12 '23 10:04 Dagoli

我也只是改了CUDA_VISIBLE_DEVICES=0,1，然后告诉我cuda满了，我盯着gpu看的，是突然一下就爆了。单卡训练反倒没问题

Apr 12 '23 12:04 SixGoodX

@SixGoodX

我把内存提到64G+32G*2的显卡跑好像也是卡死

Apr 13 '23 05:04 Dagoli

我也只是改了CUDA_VISIBLE_DEVICES=0,1，然后告诉我cuda满了，我盯着gpu看的，是突然一下就爆了。单卡训练反倒没问题

我也是这样的问题，多卡直接爆掉。

Apr 13 '23 06:04 online2311

我用三张32g的卡跑，只有第一张卡的占用率是满的，其他两张卡一直为零，占用的显存也很少，感觉不存在爆显存的问题，但是训练的时候一直卡在0%不动 E3CF2165-EC6F-492a-906B-1A7E3FE37029

Apr 13 '23 09:04 TE-Raven

我用三张32g的卡跑，只有第一张卡的占用率是满的，其他两张卡一直为零，占用的显存也很少，感觉不存在爆显存的问题，但是训练的时候一直卡在0%不动

@TE-Raven 我换了个更大的内存机器试了下，报GPU OOM

Apr 14 '23 01:04 Dagoli

同问，有没有使用 p-tuning v2多卡模型并行的方法

我在加载模型的时候，使用这种方式加载模型的，但是模型并没有在第0号显卡上减小模型，是什么原因呢，如何使用P-tuning v2的训练方式单机多卡训练呢

Apr 24 '23 11:04 aihaidong

我也在设置多卡训练，但是不行，我设置os.environ['CUDA_VISIBLE_DEVICES']='0,1,2‘ ，报nvcc的错误

May 12 '23 08:05 pc123s

显存12G*2 单卡运行占用大约7G，多卡运行直接爆显存了CUDA_VISIBLE_DEVICES=0,1

Jun 02 '23 06:06 LnnE23D

@Dagoli @LnnE23D @pc123s 大佬们，请问这个问题后来是如何解决的？我按照评论区将CUDA_VISIBLE_DEVICES这个进行修改，可是却发现，多卡运行的时间和资源消耗远远大于单卡

Jun 16 '23 16:06 niuhuluzhihao

单机多卡，指定两张卡，我也报OOM错误，有大佬知道怎么解决吗？

Jul 19 '23 02:07 DuBaiSheng

同问，单机双卡，报OOM错误。单卡正常ptuning，设置CUDA_VISIBLE_DEVICES=0,1就报OOM错误。

Jul 20 '23 11:07 xiao1014

同问

Aug 07 '23 17:08 wdmmxlbt

ChatGLM-6B ChatGLM-6B copied to clipboard

[Help] ChatGLM-6B/ptuning/下面的训练脚本支持多卡训练吗？

Is there an existing issue for this?

Current Behavior

Expected Behavior

Steps To Reproduce

Environment

Anything else?

ChatGLM-6B
ChatGLM-6B copied to clipboard