OpenRLHF
OpenRLHF copied to clipboard
reward model数据集问题
我在模型微调的时候加入了代码数据集,让模型拥有不错的代码能力,在RLHF阶段训练奖励模型的时候还需要再加入代码数据集的训练吗,如果不加入会不会导致模型的代码能力下降
我在模型微调的时候加入了代码数据集,让模型拥有不错的代码能力,在RLHF阶段训练奖励模型的时候还需要再加入代码数据集的训练吗,如果不加入会不会导致模型的代码能力下降