ChatGPTBook
ChatGPTBook copied to clipboard
RewardModel计算两个response之间的差异部分疑问
RewardModel计算两个response之间的差异:end_ind的计算是通过end_ind = max(one_ind, two_ind)算的,为什么不是直接比较one_input_ids和two_input_ids差异的最后一个值,也就是check_divergence[-1]来获得。