MOSS-RLHF icon indicating copy to clipboard operation
MOSS-RLHF copied to clipboard

训练reward model的脚本

Open wangzhao88 opened this issue 1 year ago • 3 comments

您好: 请问可以支持对齐技术报告的reward model的训练模块吗?我想复现一下文中reward model的效果,谢谢。

wangzhao88 avatar Jul 19 '23 10:07 wangzhao88

感谢您对本项目的关注~因为奖励模型的训练涉及一些提高奖励模型表现的方法,所以我们暂时还不能对奖励模型进行开源。我们预计会在8-9月分的PART II部分放出后,对奖励模型的训练进行开源,感谢您的关注和认可~

Ablustrund avatar Jul 20 '23 09:07 Ablustrund

这个issue是否还有后续?

Rosenberg37 avatar Nov 01 '23 01:11 Rosenberg37

您好,Reward model 训练部分还会开源吗?

liu-zichen avatar Nov 14 '23 12:11 liu-zichen