MOSS-RLHF icon indicating copy to clipboard operation
MOSS-RLHF copied to clipboard

关于rm模型训练策略与损失函数

Open tonylin52 opened this issue 1 year ago • 12 comments

首先恭喜获得best paper!!!

我这面有个疑问,我想试验一下论文中label smooth这块,但是在代码中没有发现有关label smooth的损失修改,另外也没有发现任何关于损失添加margin的代码,请问这块是没有release出来吗?

tonylin52 avatar Jan 16 '24 03:01 tonylin52

感谢您的关注! 我们目前的奖励模型训练暂时只release了基础的训练方法。因为PART II中涉及的方法较多,同时我们也尝试了很多的组合,所以难以第一时间开源所有方法。负责相关实验的同学会在后续陆续更新到仓库。我们所有的方法均基于这套代码进行迭代。

Ablustrund avatar Jan 17 '24 07:01 Ablustrund

感谢您的关注! 我们目前的奖励模型训练暂时只release了基础的训练方法。因为PART II中涉及的方法较多,同时我们也尝试了很多的组合,所以难以第一时间开源所有方法。负责相关实验的同学会在后续陆续更新到仓库。我们所有的方法均基于这套代码进行迭代。

我想请教一下margin的这个具体应该怎么确定数值?还有margin的范围有考究吗?

tonylin52 avatar Jan 18 '24 01:01 tonylin52

margin可以根据preference differences参考Llama2论文中的值进行设置

qianxianyang avatar Jan 30 '24 03:01 qianxianyang

margin的数值就是preference differences,margin的范围并没有讲究,因为reward model强调的是不同样本之间的相对好坏。因此分数的相对大小而非绝对大小对于reward model的质量影响更大。 但是margin的范围应该要相对较小,因为我们推测过大的数值可能会导致reward model的打分不稳定

refrain-wbh avatar Jan 30 '24 15:01 refrain-wbh

收到 十分感谢!还有个问题哈,目前我训练过的reward model对于短回答(1-10个token左右)的打分效果非常不好,这块你们遇到过类似情况吗?

tonylin52 avatar Jan 31 '24 00:01 tonylin52

我们没有遇到过,这个可能与训练集的分布有关,你的训练集的回答长度普遍很长吗?

refrain-wbh avatar Jan 31 '24 14:01 refrain-wbh

回答长短都有。短的集中在一些确定性任务上,例如实体识别,语义分类这样的任务,一般回答例如:“积极”,“好”,“悲观”等极短的token。然后训练rm模型得时候,就会发现,在这些短回答的任务上,rm即使训练,(训练集&验证集)表现也都不佳。

tonylin52 avatar Feb 01 '24 01:02 tonylin52

我推测这类等同于具有确定标签的任务可能并不适合用reward model来解决,因为对于reward model来说,其通过偏好对学习到给定query不同回答的相对好坏,从而能够给出一个相对分数。然而这类任务并不存在相对好坏,而是一个正确与否的0 1标签。从直觉上来说,我感到这类任务reward model能够从偏好关系中学习到的东西很少。不过具体为什么表现不佳可能需要更多的信息,你的数据集中为什么会包含语义分类的任务,以及你是如何构造这种语义分类的偏好数据集的? 训练集和验证集的表现不佳是指什么现象,使用了什么指标呢

refrain-wbh avatar Feb 04 '24 03:02 refrain-wbh

目前RM的数据集,就是我们自己收集的一些分类任务的数据集,简单示例为: prompt:“今天的工作很不顺心。”从这句话中选取意图,1-抱怨;2-建议,要求按照json格式,只回答id即可,例如{‘id’:2}。 chosen:{‘id’:1} rejected:{‘id’:2}

指标的话,目前就是列出来最后一个词的reward查看结果。如果表现好,chosen的reward都应该高于rejected的。

tonylin52 avatar Feb 04 '24 05:02 tonylin52

另外,我感觉你们的RM论文,用途比较实际,能看出来RM模型对于数据的preference differences到底怎么样。

因为我最近在看谷歌的<RLAIF>和fb的,个人直觉:利用AI去强行训练RM功能,是建立在模型本身对不同结果的辨别能力还OK的情况下;至于如何保证辨别能力OK,那还得回归人工参与的数据收集、标注。有种先有鸡还是先有蛋的感觉。。。。

tonylin52 avatar Feb 04 '24 08:02 tonylin52

你好,都过去这么久了,有smooth和margin的代码吗?

dotsonliu avatar Aug 26 '24 15:08 dotsonliu

你好,都过去这么久了,有smooth和margin的代码吗?

这种高校类的除非有企业顶着,通常是昙花一现

tonylin52 avatar Sep 06 '24 01:09 tonylin52