Shihan Dou

Results 50 comments of Shihan Dou

哈哈哈哈,感谢您的关注!我们预计在十月份中推出PART II,再次感谢您的催更,我们会加速的。

> 10月已中旬,催更 呜呜呜再等等

> @Ablustrund 中旬已过哈哈 呜呜呜别骂了,资源目前集中在其他更有挑战的地方例如pretrain,再等等再等等

> @Ablustrund 还有后续不,已经快24年了。 目前进度来看,在2024年1月1日发 (希望不再延期):(

> @Ablustrund 嗷嗷待学,催更 目前进度来看,在2024年1月1日发 (希望不再延期):(

具体看base model的size,能力;数据的质量,多样性,复杂性;训练的方式。这些都会影响最终训练的效果。

> @Ablustrund 加油加油... 您好!PART II已经发布 https://arxiv.org/abs/2401.06080

> 看起来又拖更了~ @Ablustrund 您好!PART II已经发布 https://arxiv.org/abs/2401.06080

1. pad-left = false是从右侧padding 2. reward model padding left是为了防止最后打分的token为pad,影响效果。 3. lossmask吧tokenid改为pad,所以最终是不会计算loss的。

1. 我们的motivation是在分布发生偏移时,rm能够通过metalearning从新纠正回来。meta dataset是根据最新的policy model采样得到的。因为此时你需要继续增加policy model的效果,所以需要rm重新恢复对这个policy model输出空间的打分效果。 2. 温度我们稍微开大一点,为了使meta dataset的response更有差异,meta dataset中每个prompt有多个response。