alpaca-rlhf
alpaca-rlhf copied to clipboard

Published 20 hours ago •

Reame
Issues

step2和step3中padding side似乎不一样？

Open qiancheng99 opened this issue 1 year ago • 1 comments

我看data_utils.py中step2是padding在右侧的，然而step3特意改成padding在左侧。这里面有什么讲究吗？两者不一致会不会导致reward计算出问题？

Jul 25 '23 02:07 qiancheng99

step3的padding在左侧的原因是，采样的时候，需要批量推断，使预估的next token之前的token不是padding，这也更加合理
reward的计算没有问题。预估的reward计算只用到了[prompt,response]中response最后一个token的预估值。训练的时候是这样的: [prompt,response,padding]，预估的时候是这样的：[padding,prompt,response]，这应该比例预估的时候改成[prompt,padding,response]合理些。

Jul 25 '23 09:07 l294265421