WebGLM
WebGLM copied to clipboard
关于人类偏好模型的训练
您好,看到论文里写的最后的对比训练用的是,一个线性层做的一个打分排序模型?请问这一步是不是没有用的强化学习
是的,我们目前还没有使用强化学习用于我们的模型训练中,人类偏好模型目前仅用于模型回答的筛选。
好的,感谢您的回答