MOSS-RLHF 关于rm模型训练策略与损失函数

首先恭喜获得best paper！！！

我这面有个疑问，我想试验一下论文中label smooth这块，但是在代码中没有发现有关label smooth的损失修改，另外也没有发现任何关于损失添加margin的代码，请问这块是没有release出来吗？

Jan 16 '24 03:01 tonylin52

感谢您的关注！我们目前的奖励模型训练暂时只release了基础的训练方法。因为PART II中涉及的方法较多，同时我们也尝试了很多的组合，所以难以第一时间开源所有方法。负责相关实验的同学会在后续陆续更新到仓库。我们所有的方法均基于这套代码进行迭代。

Jan 17 '24 07:01 Ablustrund

感谢您的关注！我们目前的奖励模型训练暂时只release了基础的训练方法。因为PART II中涉及的方法较多，同时我们也尝试了很多的组合，所以难以第一时间开源所有方法。负责相关实验的同学会在后续陆续更新到仓库。我们所有的方法均基于这套代码进行迭代。

我想请教一下margin的这个具体应该怎么确定数值？还有margin的范围有考究吗？

Jan 18 '24 01:01 tonylin52

margin可以根据preference differences参考Llama2论文中的值进行设置

Jan 30 '24 03:01 qianxianyang

margin的数值就是preference differences，margin的范围并没有讲究，因为reward model强调的是不同样本之间的相对好坏。因此分数的相对大小而非绝对大小对于reward model的质量影响更大。但是margin的范围应该要相对较小，因为我们推测过大的数值可能会导致reward model的打分不稳定

Jan 30 '24 15:01 refrain-wbh

收到十分感谢！还有个问题哈，目前我训练过的reward model对于短回答（1-10个token左右）的打分效果非常不好，这块你们遇到过类似情况吗？

Jan 31 '24 00:01 tonylin52

我们没有遇到过，这个可能与训练集的分布有关，你的训练集的回答长度普遍很长吗？

Jan 31 '24 14:01 refrain-wbh

回答长短都有。短的集中在一些确定性任务上，例如实体识别，语义分类这样的任务，一般回答例如：“积极”，“好”，“悲观”等极短的token。然后训练rm模型得时候，就会发现，在这些短回答的任务上，rm即使训练，（训练集&验证集）表现也都不佳。

Feb 01 '24 01:02 tonylin52

我推测这类等同于具有确定标签的任务可能并不适合用reward model来解决，因为对于reward model来说，其通过偏好对学习到给定query不同回答的相对好坏，从而能够给出一个相对分数。然而这类任务并不存在相对好坏，而是一个正确与否的0 1标签。从直觉上来说，我感到这类任务reward model能够从偏好关系中学习到的东西很少。不过具体为什么表现不佳可能需要更多的信息，你的数据集中为什么会包含语义分类的任务，以及你是如何构造这种语义分类的偏好数据集的？训练集和验证集的表现不佳是指什么现象，使用了什么指标呢

Feb 04 '24 03:02 refrain-wbh

目前RM的数据集，就是我们自己收集的一些分类任务的数据集，简单示例为： prompt：“今天的工作很不顺心。”从这句话中选取意图，1-抱怨；2-建议，要求按照json格式，只回答id即可，例如{‘id’：2}。 chosen：{‘id’：1} rejected：{‘id’：2}

指标的话，目前就是列出来最后一个词的reward查看结果。如果表现好，chosen的reward都应该高于rejected的。

Feb 04 '24 05:02 tonylin52

另外，我感觉你们的RM论文，用途比较实际，能看出来RM模型对于数据的preference differences到底怎么样。

因为我最近在看谷歌的<RLAIF>和fb的，个人直觉：利用AI去强行训练RM功能，是建立在模型本身对不同结果的辨别能力还OK的情况下；至于如何保证辨别能力OK，那还得回归人工参与的数据收集、标注。有种先有鸡还是先有蛋的感觉。。。。

Feb 04 '24 08:02 tonylin52

你好，都过去这么久了，有smooth和margin的代码吗？

Aug 26 '24 15:08 dotsonliu

你好，都过去这么久了，有smooth和margin的代码吗？

这种高校类的除非有企业顶着，通常是昙花一现

Sep 06 '24 01:09 tonylin52

MOSS-RLHF MOSS-RLHF copied to clipboard

关于rm模型训练策略与损失函数

MOSS-RLHF
MOSS-RLHF copied to clipboard