llm_rlhf
llm_rlhf copied to clipboard
原理请教
rewardmodel是打分模型,可否用人工代替? 若人工代替,则只需要组建三元组和对应分数,即可用强化学习的思路训练模型对吗?