MOSS-RLHF
MOSS-RLHF copied to clipboard
Part2中meta dataset的生成
- meta dataset S是怎么产生的,都是基于最新的策略重新采样出来吗?
- 相关的超参是怎么设置的,T,n, m
- 我们的motivation是在分布发生偏移时,rm能够通过metalearning从新纠正回来。meta dataset是根据最新的policy model采样得到的。因为此时你需要继续增加policy model的效果,所以需要rm重新恢复对这个policy model输出空间的打分效果。
- 温度我们稍微开大一点,为了使meta dataset的response更有差异,meta dataset中每个prompt有多个response。