RewardModel计算两个response之间的差异部分疑问

Open kzh2ang opened this issue 2 years ago • 0 comments

RewardModel计算两个response之间的差异：end_ind的计算是通过end_ind = max(one_ind, two_ind)算的，为什么不是直接比较one_input_ids和two_input_ids差异的最后一个值，也就是check_divergence[-1]来获得。

Oct 08 '23 13:10 kzh2ang