qlora单机多卡微调baichuan2-13b问题
您好,请问报这个错是什么原因
你试试 7b 的 baichuan 模型单机多卡能跑通吗
你试试 7b 的 baichuan 模型单机多卡能跑通吗
试过了,也会报这个错
我明天过去排查一下
在 2023-12-03 20:25:10,"zxm8601" @.***> 写道:
你试试 7b 的 baichuan 模型单机多卡能跑通吗
试过了,也会报这个错
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
我明天过去排查一下 在 2023-12-03 20:25:10,"zxm8601" @.> 写道: 你试试 7b 的 baichuan 模型单机多卡能跑通吗 试过了,也会报这个错 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>
好的,感谢
你在训练命令添加一行参数试试: --ddp_find_unused_parameters True
你设置 gradient_checkpointing 为 True 了吗
你设置 gradient_checkpointing 为 True 了吗
请问在哪里设置
你在训练的 sh 文件里添加一行参数试试: --ddp_find_unused_parameters True
你在训练的 sh 文件里添加一行参数试试: --ddp_find_unused_parameters True
好的,我试试
出现了新的错误
你单卡训练正常吗
单卡显存会爆,不好意思,github突然打不开了,在这里回复
阿鹤 @.***
------------------ 原始邮件 ------------------ 发件人: "zejunwang1/LLMTuner" @.>; 发送时间: 2023年12月3日(星期天) 晚上9:52 @.>; @.@.>; 主题: Re: [zejunwang1/LLMTuner] qlora单机多卡微调baichuan2-13b问题 (Issue #6)
你单卡训练正常吗
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
你显卡的显存多大
在 2023-12-03 21:58:12,"zxm8601" @.***> 写道:
单卡显存会爆,不好意思,github突然打不开了,在这里回复
阿鹤 @.***
------------------ 原始邮件 ------------------ 发件人: "zejunwang1/LLMTuner" @.>; 发送时间: 2023年12月3日(星期天) 晚上9:52 @.>; @.@.>; 主题: Re: [zejunwang1/LLMTuner] qlora单机多卡微调baichuan2-13b问题 (Issue #6)
你单卡训练正常吗
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
你显卡的显存多大 在 2023-12-03 21:58:12,"zxm8601" @.> 写道: 单卡显存会爆,不好意思,github突然打不开了,在这里回复 阿鹤 @. … ------------------ 原始邮件 ------------------ 发件人: "zejunwang1/LLMTuner" @.>; 发送时间: 2023年12月3日(星期天) 晚上9:52 @.>; @.@.>; 主题: Re: [zejunwang1/LLMTuner] qlora单机多卡微调baichuan2-13b问题 (Issue #6) 你单卡训练正常吗 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.> — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>
24G
经过排查,在训练命令中加入: --ddp_find_unused_parameters False 可以进行多卡训练,你试一下
在训练命令中加入是指这样子吗
是的,设置 --ddp_find_unused_parameters False
是的,设置 --ddp_find_unused_parameters False
好的,我试一下
解决了,可以跑起来,感谢!