WangZeJun

Results 62 comments of WangZeJun

参考:https://github.com/yangjianxin1/LLMPruner

多轮对话可以参考 fastchat 项目里的训练代码: https://github.com/lm-sys/FastChat/blob/main/fastchat/train/train.py

可参考最近开源的项目:https://github.com/zejunwang1/LLMTuner 多轮对话数据输入形式、支持全量参数、LoRA 和 QLoRA 微调

将 deepspeed 的配置文件修改为: { "train_batch_size": "auto", "train_micro_batch_size_per_gpu": "auto", "gradient_accumulation_steps": "auto", "gradient_clipping": "auto", "fp16": { "enabled": "auto", "loss_scale": 0, "initial_scale_power": 16, "loss_scale_window": 1000, "hysteresis": 2, "min_loss_scale": 1 }, "bf16": { "enabled":...

你试试 7b 的 baichuan 模型单机多卡能跑通吗

我明天过去排查一下 在 2023-12-03 20:25:10,"zxm8601" ***@***.***> 写道: 你试试 7b 的 baichuan 模型单机多卡能跑通吗 试过了,也会报这个错 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you...

你在训练命令添加一行参数试试: --ddp_find_unused_parameters True

你设置 gradient_checkpointing 为 True 了吗

你在训练的 sh 文件里添加一行参数试试: --ddp_find_unused_parameters True