MOSS-RLHF icon indicating copy to clipboard operation
MOSS-RLHF copied to clipboard

Reward Model

Open Cyber-Axe opened this issue 1 year ago • 2 comments

请问奖励模型可以单独使用吗?比如对某个input下的模型output返回一个奖励分数。如果可以的话应该如何构造输入文本呢?

Cyber-Axe avatar Jul 16 '23 09:07 Cyber-Axe

当然可以使用,对于中文,输入的多轮QA结构为:<|Human|>hello<|MOSS|>hi</s><|Human|>你好<|MOSS|>嗨</s>

Ablustrund avatar Jul 18 '23 02:07 Ablustrund

请问可以单独出一个reward model的运行脚本吗

Warrior63 avatar Jul 19 '23 08:07 Warrior63