MOSS-RLHF
MOSS-RLHF copied to clipboard

Published 20 hours ago •

Reame
Issues

Part2中meta dataset的生成

Open yata0 opened this issue 11 months ago • 1 comments

meta dataset S是怎么产生的，都是基于最新的策略重新采样出来吗？
相关的超参是怎么设置的，T，n, m

Feb 28 '24 08:02 yata0

我们的motivation是在分布发生偏移时，rm能够通过metalearning从新纠正回来。meta dataset是根据最新的policy model采样得到的。因为此时你需要继续增加policy model的效果，所以需要rm重新恢复对这个policy model输出空间的打分效果。
温度我们稍微开大一点，为了使meta dataset的response更有差异，meta dataset中每个prompt有多个response。

Mar 03 '24 04:03 Ablustrund