MOSS-RLHF icon indicating copy to clipboard operation
MOSS-RLHF copied to clipboard

value model与reward model

Open KUANWB opened this issue 1 year ago • 2 comments

您好,请问value model的初始权重就是reward model的权重吗?value model是不是只需要加载完权重后把最后的投影层在每个tokens上都投影成一个标量就可以了?谢谢

KUANWB avatar Jul 21 '23 07:07 KUANWB

是的 value model 的初始权重为reward model。 是的value model将每个token 的 hidden size -> 一个标量

Ablustrund avatar Jul 23 '23 14:07 Ablustrund

谢谢

KUANWB avatar Jul 24 '23 00:07 KUANWB