ChatGPTBook icon indicating copy to clipboard operation
ChatGPTBook copied to clipboard

RewardModel计算两个response之间的差异部分疑问

Open kzh2ang opened this issue 2 years ago • 0 comments

RewardModel计算两个response之间的差异:end_ind的计算是通过end_ind = max(one_ind, two_ind)算的,为什么不是直接比较one_input_idstwo_input_ids差异的最后一个值,也就是check_divergence[-1]来获得。

kzh2ang avatar Oct 08 '23 13:10 kzh2ang