如何在计算reward的时候引入其它数据rollout的信息？

Open KirinZzzz opened this issue 2 months ago • 1 comments

正在尝试复现别人的代码，代码情景为排序任务，每次的输入是[query,doc]，但是会存在同一个query对应多个doc的情况，因此可能会有很多个[query,doc]分别输入（其中query是一致的），奖励函数设计中涉及到了对一个[query,doc]pair，查看该query对应的每一个doc的rollout情况，再根据其它rollout的情况给出当前的reward。目前看到的example似乎只能访问到当前输入信息的输出情况，是否有方法可以访问到其它数据的rollout输出的数据情况呢？

Nov 17 '25 09:11 KirinZzzz

我觉得你可以自己设计一个reward manager

Nov 19 '25 02:11 albertimff