verl
verl copied to clipboard
如何在计算reward的时候引入其它数据rollout的信息?
正在尝试复现别人的代码,代码情景为排序任务,每次的输入是[query,doc],但是会存在同一个query对应多个doc的情况,因此可能会有很多个[query,doc]分别输入(其中query是一致的),奖励函数设计中涉及到了对一个[query,doc]pair,查看该query对应的每一个doc的rollout情况,再根据其它rollout的情况给出当前的reward。目前看到的example似乎只能访问到当前输入信息的输出情况,是否有方法可以访问到其它数据的rollout输出的数据情况呢?
我觉得你可以自己设计一个reward manager