LLaMA-Factory icon indicating copy to clipboard operation
LLaMA-Factory copied to clipboard

PPO使用zero3加载全参训练的奖励模型,奖励模型加载失败。

Open Luoxiaohei41 opened this issue 1 year ago • 12 comments

PPO阶段使用zero2能正常开启训练,但是使用zero3就会出现奖励模型加载出错。 训练参数: 捕获 报错如下: 捕获2 ds_config_zero3.config如下: 捕获3

Luoxiaohei41 avatar Dec 11 '23 06:12 Luoxiaohei41

我这边也存在同样的问题

chengcheng8632 avatar Dec 11 '23 07:12 chengcheng8632

lora + zero3 也存在同样的问题

jiahuanluo avatar Dec 11 '23 09:12 jiahuanluo

我用pt训练也是,zero2可以,zero3不行,作者可以解决下吗

Kayce001 avatar Dec 12 '23 08:12 Kayce001

作者可以解决下吗?

chengcheng8632 avatar Dec 14 '23 11:12 chengcheng8632

更新一下代码

hiyouga avatar Dec 19 '23 09:12 hiyouga

我这似乎没解决 更新了代码之后还是一样的报错

endxxxx avatar Dec 19 '23 13:12 endxxxx

没有解决,还是一样的问题

chengcheng8632 avatar Dec 20 '23 07:12 chengcheng8632

顺便问一下题主 你微调的基座模型是哪个 因为我用zero2也不能正常训练(会报错OOM) 我微调的基座模型是Baichuan2-13B-Chat 然后使用的是8*A800 80G的卡 你微调的是7b的llama吗

endxxxx avatar Dec 20 '23 11:12 endxxxx

顺便问一下题主 你微调的基座模型是哪个 因为我用zero2也不能正常训练(会报错OOM) 我微调的基座模型是Baichuan2-13B-Chat 然后使用的是8*A800 80G的卡 你微调的是7b的llama吗

Luoxiaohei41 avatar Dec 21 '23 01:12 Luoxiaohei41

用的是13b模型,zero2是可以的,但是很吃显存,zero3跑不起来

chengcheng8632 avatar Dec 25 '23 01:12 chengcheng8632

你们都是加载3个模型吗,actor, ref model, reward model,我这跑1.8b模型zero2都报错oom

WangYuxiang8 avatar Apr 03 '24 10:04 WangYuxiang8

用的是13b模型,zero2是可以的,但是很吃显存,zero3跑不起来

借楼问一下, PPO使用的数据集是 标记好的 good 和bad的 comparison数据集吗? https://raw.githubusercontent.com/hiyouga/LLaMA-Factory/main/data/comparison_gpt4_data_zh.json

还是 使用的训练sft时的数据格式? 谢谢~

haizhiguang avatar Apr 18 '24 09:04 haizhiguang