LLaMA-Factory PPO使用zero3加载全参训练的奖励模型，奖励模型加载失败。

PPO使用zero3加载全参训练的奖励模型，奖励模型加载失败。

Open Luoxiaohei41 opened this issue 1 year ago • 12 comments

PPO阶段使用zero2能正常开启训练，但是使用zero3就会出现奖励模型加载出错。训练参数：报错如下：捕获2 ds_config_zero3.config如下：捕获3

Dec 11 '23 06:12 Luoxiaohei41

我这边也存在同样的问题

Dec 11 '23 07:12 chengcheng8632

lora + zero3 也存在同样的问题

Dec 11 '23 09:12 jiahuanluo

我用pt训练也是，zero2可以，zero3不行，作者可以解决下吗

Dec 12 '23 08:12 Kayce001

作者可以解决下吗？

Dec 14 '23 11:12 chengcheng8632

更新一下代码

Dec 19 '23 09:12 hiyouga

我这似乎没解决更新了代码之后还是一样的报错

Dec 19 '23 13:12 endxxxx

没有解决，还是一样的问题

Dec 20 '23 07:12 chengcheng8632

顺便问一下题主你微调的基座模型是哪个因为我用zero2也不能正常训练（会报错OOM）我微调的基座模型是Baichuan2-13B-Chat 然后使用的是8*A800 80G的卡你微调的是7b的llama吗

Dec 20 '23 11:12 endxxxx

顺便问一下题主你微调的基座模型是哪个因为我用zero2也不能正常训练（会报错OOM）我微调的基座模型是Baichuan2-13B-Chat 然后使用的是8*A800 80G的卡你微调的是7b的llama吗

Dec 21 '23 01:12 Luoxiaohei41

用的是13b模型，zero2是可以的，但是很吃显存，zero3跑不起来

Dec 25 '23 01:12 chengcheng8632

你们都是加载3个模型吗，actor, ref model, reward model，我这跑1.8b模型zero2都报错oom

Apr 03 '24 10:04 WangYuxiang8

用的是13b模型，zero2是可以的，但是很吃显存，zero3跑不起来

借楼问一下， PPO使用的数据集是标记好的 good 和bad的 comparison数据集吗？ https://raw.githubusercontent.com/hiyouga/LLaMA-Factory/main/data/comparison_gpt4_data_zh.json

还是使用的训练sft时的数据格式？谢谢~

Apr 18 '24 09:04 haizhiguang