MOSS-RLHF
MOSS-RLHF copied to clipboard
关于rm模型训练策略与损失函数
首先恭喜获得best paper!!!
我这面有个疑问,我想试验一下论文中label smooth这块,但是在代码中没有发现有关label smooth的损失修改,另外也没有发现任何关于损失添加margin的代码,请问这块是没有release出来吗?
感谢您的关注! 我们目前的奖励模型训练暂时只release了基础的训练方法。因为PART II中涉及的方法较多,同时我们也尝试了很多的组合,所以难以第一时间开源所有方法。负责相关实验的同学会在后续陆续更新到仓库。我们所有的方法均基于这套代码进行迭代。
感谢您的关注! 我们目前的奖励模型训练暂时只release了基础的训练方法。因为PART II中涉及的方法较多,同时我们也尝试了很多的组合,所以难以第一时间开源所有方法。负责相关实验的同学会在后续陆续更新到仓库。我们所有的方法均基于这套代码进行迭代。
我想请教一下margin的这个具体应该怎么确定数值?还有margin的范围有考究吗?
margin可以根据preference differences参考Llama2论文中的值进行设置
margin的数值就是preference differences,margin的范围并没有讲究,因为reward model强调的是不同样本之间的相对好坏。因此分数的相对大小而非绝对大小对于reward model的质量影响更大。 但是margin的范围应该要相对较小,因为我们推测过大的数值可能会导致reward model的打分不稳定
收到 十分感谢!还有个问题哈,目前我训练过的reward model对于短回答(1-10个token左右)的打分效果非常不好,这块你们遇到过类似情况吗?
我们没有遇到过,这个可能与训练集的分布有关,你的训练集的回答长度普遍很长吗?
回答长短都有。短的集中在一些确定性任务上,例如实体识别,语义分类这样的任务,一般回答例如:“积极”,“好”,“悲观”等极短的token。然后训练rm模型得时候,就会发现,在这些短回答的任务上,rm即使训练,(训练集&验证集)表现也都不佳。
我推测这类等同于具有确定标签的任务可能并不适合用reward model来解决,因为对于reward model来说,其通过偏好对学习到给定query不同回答的相对好坏,从而能够给出一个相对分数。然而这类任务并不存在相对好坏,而是一个正确与否的0 1标签。从直觉上来说,我感到这类任务reward model能够从偏好关系中学习到的东西很少。不过具体为什么表现不佳可能需要更多的信息,你的数据集中为什么会包含语义分类的任务,以及你是如何构造这种语义分类的偏好数据集的? 训练集和验证集的表现不佳是指什么现象,使用了什么指标呢
目前RM的数据集,就是我们自己收集的一些分类任务的数据集,简单示例为: prompt:“今天的工作很不顺心。”从这句话中选取意图,1-抱怨;2-建议,要求按照json格式,只回答id即可,例如{‘id’:2}。 chosen:{‘id’:1} rejected:{‘id’:2}
指标的话,目前就是列出来最后一个词的reward查看结果。如果表现好,chosen的reward都应该高于rejected的。
另外,我感觉你们的RM论文,用途比较实际,能看出来RM模型对于数据的preference differences到底怎么样。
因为我最近在看谷歌的<RLAIF>和fb的
你好,都过去这么久了,有smooth和margin的代码吗?
你好,都过去这么久了,有smooth和margin的代码吗?
这种高校类的除非有企业顶着,通常是昙花一现