MOSS-RLHF icon indicating copy to clipboard operation
MOSS-RLHF copied to clipboard

Part2中meta dataset的生成

Open yata0 opened this issue 11 months ago • 1 comments

  1. meta dataset S是怎么产生的,都是基于最新的策略重新采样出来吗?
  2. 相关的超参是怎么设置的,T,n, m

yata0 avatar Feb 28 '24 08:02 yata0

  1. 我们的motivation是在分布发生偏移时,rm能够通过metalearning从新纠正回来。meta dataset是根据最新的policy model采样得到的。因为此时你需要继续增加policy model的效果,所以需要rm重新恢复对这个policy model输出空间的打分效果。
  2. 温度我们稍微开大一点,为了使meta dataset的response更有差异,meta dataset中每个prompt有多个response。

Ablustrund avatar Mar 03 '24 04:03 Ablustrund