Shihan Dou
Shihan Dou
您好,感谢您的使用。无论中文和英文的模型,合并都使用原始的decapoda-research/llama-7b-hf。我们的中文奖励模型是基于open chinese llama 训练的,但是发布的时候为了统一,使用decapoda-research/llama-7b-hf做的diff,所以合成奖励模型和基于什么训练是没有关系的。所以你最开始的合并是正确的。 另外关于打分异常的问题,我在您的代码中没有看到明显错误,请您也确认一下是否和代码中“采样打分”部分相同。 另外奖励模型打分的绝对值没有明显的参考意义,只要保证同样的prompt,好的回复的打分好于坏的回复即可。 另外需要确认的是,我们的输入格式貌似是 ` 列举一种空气污染。 一种常见的空气污染源是化石燃料的......` 请您确认一下是否在每一个prompt后面,缺少一个``(但是我不确定对奖励模型的打分是否有显著影响。)
> 非常感谢作者回复,之前试过在prompt后面也加,影响不大。不知道作者有没有试用我的代码,如果输出是一致的,那可能就是跟模型准确率本身不够高有关系了,话说reward model确实还挺难做的。再次感谢作者,期待part 2。 谢谢您的使用!我们的代码和您类似,只是加了special token。但是我们在发布tokenizer的时候已经加入了special token,所以应该是相通的。 奖励模型的泛化能力和鲁棒性确实比较重要,如果您的sample和我们训练的sample区别较大,打分就很容易不准。我们的part2预计在本月或者下个月推出 感谢您的持续关注!
hi! Thanks for your attention! Try to add the assistant prompt and the bot prompt, i.e., Human: Hey, are you conscious? Can you talk to me? User:
您好,我们没有使用offload。加载完模型每个卡占用60G,尝试适配一下Zero3。应该需要修改少量的代码(50行以内)。
我们在开源代码时去掉了Zero3的部分。经过验证代码是可以完美适配Zero3的。
Thank you very much for your interest in this project, and I apologize for the delayed reply. We set zero3 and offload the parameters to the CPU, the bsz is...
我们的框架不同于其他框架,我们在技术报告中的各种trick大多目的是提高ppo过程的稳定性,其中kl penalty对约束模型防止崩溃起到较为显著的效果。我们初步判断在训练较多step后模型崩掉的原因可能是reward model的能力不够,不足以完成正确的打分,这部分我们会在技术报告PART II中做较为详细的阐述。
bs更小训练会更加稳定。on policy 和 off policy的区别是batch size 是否和 rollout size 相匹配,如果batchsize能够将当前采样得到的samples一步优化,那么就是on policy
当然可以使用,对于中文,输入的多轮QA结构为:`hellohi你好嗨`
您好,详见技术报告第十页,有中英文reward model在trainset 和 evalset上面的准确率