LLaMA-Factory
LLaMA-Factory copied to clipboard
PPO使用zero3加载全参训练的奖励模型,奖励模型加载失败。
PPO阶段使用zero2能正常开启训练,但是使用zero3就会出现奖励模型加载出错。
训练参数:
报错如下:
ds_config_zero3.config如下:
我这边也存在同样的问题
lora + zero3 也存在同样的问题
我用pt训练也是,zero2可以,zero3不行,作者可以解决下吗
作者可以解决下吗?
更新一下代码
我这似乎没解决 更新了代码之后还是一样的报错
没有解决,还是一样的问题
顺便问一下题主 你微调的基座模型是哪个 因为我用zero2也不能正常训练(会报错OOM) 我微调的基座模型是Baichuan2-13B-Chat 然后使用的是8*A800 80G的卡 你微调的是7b的llama吗
顺便问一下题主 你微调的基座模型是哪个 因为我用zero2也不能正常训练(会报错OOM) 我微调的基座模型是Baichuan2-13B-Chat 然后使用的是8*A800 80G的卡 你微调的是7b的llama吗
用的是13b模型,zero2是可以的,但是很吃显存,zero3跑不起来
你们都是加载3个模型吗,actor, ref model, reward model,我这跑1.8b模型zero2都报错oom
用的是13b模型,zero2是可以的,但是很吃显存,zero3跑不起来
借楼问一下, PPO使用的数据集是 标记好的 good 和bad的 comparison数据集吗? https://raw.githubusercontent.com/hiyouga/LLaMA-Factory/main/data/comparison_gpt4_data_zh.json
还是 使用的训练sft时的数据格式? 谢谢~