LLMTuner icon indicating copy to clipboard operation
LLMTuner copied to clipboard

qlora单机多卡微调baichuan2-13b问题

Open zxm8601 opened this issue 2 years ago • 19 comments

您好,请问报这个错是什么原因 image

zxm8601 avatar Dec 03 '23 04:12 zxm8601

你试试 7b 的 baichuan 模型单机多卡能跑通吗

zejunwang1 avatar Dec 03 '23 12:12 zejunwang1

你试试 7b 的 baichuan 模型单机多卡能跑通吗

试过了,也会报这个错

zxm8601 avatar Dec 03 '23 12:12 zxm8601

我明天过去排查一下

在 2023-12-03 20:25:10,"zxm8601" @.***> 写道:

你试试 7b 的 baichuan 模型单机多卡能跑通吗

试过了,也会报这个错

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

zejunwang1 avatar Dec 03 '23 12:12 zejunwang1

我明天过去排查一下 在 2023-12-03 20:25:10,"zxm8601" @.> 写道: 你试试 7b 的 baichuan 模型单机多卡能跑通吗 试过了,也会报这个错 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

好的,感谢

zxm8601 avatar Dec 03 '23 12:12 zxm8601

你在训练命令添加一行参数试试: --ddp_find_unused_parameters True

zejunwang1 avatar Dec 03 '23 13:12 zejunwang1

你设置 gradient_checkpointing 为 True 了吗

zejunwang1 avatar Dec 03 '23 13:12 zejunwang1

你设置 gradient_checkpointing 为 True 了吗

请问在哪里设置

zxm8601 avatar Dec 03 '23 13:12 zxm8601

你在训练的 sh 文件里添加一行参数试试: --ddp_find_unused_parameters True

zejunwang1 avatar Dec 03 '23 13:12 zejunwang1

你在训练的 sh 文件里添加一行参数试试: --ddp_find_unused_parameters True

好的,我试试

zxm8601 avatar Dec 03 '23 13:12 zxm8601

image 出现了新的错误

zxm8601 avatar Dec 03 '23 13:12 zxm8601

你单卡训练正常吗

zejunwang1 avatar Dec 03 '23 13:12 zejunwang1

单卡显存会爆,不好意思,github突然打不开了,在这里回复

阿鹤 @.***

 

------------------ 原始邮件 ------------------ 发件人: "zejunwang1/LLMTuner" @.>; 发送时间: 2023年12月3日(星期天) 晚上9:52 @.>; @.@.>; 主题: Re: [zejunwang1/LLMTuner] qlora单机多卡微调baichuan2-13b问题 (Issue #6)

你单卡训练正常吗

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

zxm8601 avatar Dec 03 '23 13:12 zxm8601

你显卡的显存多大

在 2023-12-03 21:58:12,"zxm8601" @.***> 写道:

单卡显存会爆,不好意思,github突然打不开了,在这里回复

阿鹤 @.***

 

------------------ 原始邮件 ------------------ 发件人: "zejunwang1/LLMTuner" @.>; 发送时间: 2023年12月3日(星期天) 晚上9:52 @.>; @.@.>; 主题: Re: [zejunwang1/LLMTuner] qlora单机多卡微调baichuan2-13b问题 (Issue #6)

你单卡训练正常吗

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

zejunwang1 avatar Dec 03 '23 14:12 zejunwang1

你显卡的显存多大 在 2023-12-03 21:58:12,"zxm8601" @.> 写道: 单卡显存会爆,不好意思,github突然打不开了,在这里回复 阿鹤 @.   ------------------ 原始邮件 ------------------ 发件人: "zejunwang1/LLMTuner" @.>; 发送时间: 2023年12月3日(星期天) 晚上9:52 @.>; @.@.>; 主题: Re: [zejunwang1/LLMTuner] qlora单机多卡微调baichuan2-13b问题 (Issue #6) 你单卡训练正常吗 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.> — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

24G

zxm8601 avatar Dec 03 '23 14:12 zxm8601

经过排查,在训练命令中加入: --ddp_find_unused_parameters False 可以进行多卡训练,你试一下

微信截图_20231204090450

zejunwang1 avatar Dec 04 '23 01:12 zejunwang1

在训练命令中加入是指这样子吗 image

zxm8601 avatar Dec 04 '23 01:12 zxm8601

是的,设置 --ddp_find_unused_parameters False

zejunwang1 avatar Dec 04 '23 01:12 zejunwang1

是的,设置 --ddp_find_unused_parameters False

好的,我试一下

zxm8601 avatar Dec 04 '23 01:12 zxm8601

解决了,可以跑起来,感谢!

zxm8601 avatar Dec 04 '23 01:12 zxm8601