alpaca-rlhf icon indicating copy to clipboard operation
alpaca-rlhf copied to clipboard

step2和step3中padding side似乎不一样?

Open qiancheng99 opened this issue 1 year ago • 1 comments

我看data_utils.py中step2是padding在右侧的,然而step3特意改成padding在左侧。这里面有什么讲究吗?两者不一致会不会导致reward计算出问题?

qiancheng99 avatar Jul 25 '23 02:07 qiancheng99

  1. step3的padding在左侧的原因是,采样的时候,需要批量推断,使预估的next token之前的token不是padding,这也更加合理
  2. reward的计算没有问题。预估的reward计算只用到了[prompt,response]中response最后一个token的预估值。训练的时候是这样的: [prompt,response,padding],预估的时候是这样的:[padding,prompt,response],这应该比例预估的时候改成[prompt,padding,response]合理些。

l294265421 avatar Jul 25 '23 09:07 l294265421