Rui Zheng
Rui Zheng
1. reward model打分主要看相对大小,通过大小来比较不同response的好坏。绝对的数值没有意义。 2. 不同prompt下的得分也是不可以比较的,这是由于建模阶段只对一个prompt的不同response进行了比较。
英文的ppo数据主要是anthropic的hh数据,和reward model阶段训练的query一样。
在response后会拼接一个eos token,所以仍然是[0,N-1]是KL penalty。多出来的eos位置被reward覆盖
中英文的reward model数据主要就是helpful和harmless。
> 好的,那使用论文中的这些trick是可以解决ppo训练崩溃的问题还是只能延缓呢?是否训练很长的step之后可能也容易崩掉? 在我们的实验设置下,是可以避免的。我们的实施流程加入了各种有效的trick,适当的调参,比如kl penelty系数,reward clipping程度是有很大几率避免的。