Tony Chen

Results 15 comments of Tony Chen

目前RM的数据集,就是我们自己收集的一些分类任务的数据集,简单示例为: prompt:“今天的工作很不顺心。”从这句话中选取意图,1-抱怨;2-建议,要求按照json格式,只回答id即可,例如{‘id’:2}。 chosen:{‘id’:1} rejected:{‘id’:2} 指标的话,目前就是列出来最后一个词的reward查看结果。如果表现好,chosen的reward都应该高于rejected的。

另外,我感觉你们的RM论文,用途比较实际,能看出来RM模型对于数据的preference differences到底怎么样。 因为我最近在看谷歌的和fb的,个人直觉:利用AI去强行训练RM功能,是建立在模型本身对不同结果的辨别能力还OK的情况下;至于如何保证辨别能力OK,那还得回归人工参与的数据收集、标注。有种先有鸡还是先有蛋的感觉。。。。

> 你好,都过去这么久了,有smooth和margin的代码吗? 这种高校类的除非有企业顶着,通常是昙花一现

In my exprience, pretrained process could improve around 30%-50% preformence. But in this case: 100%-200%.

> > I train the model without pretrained weights, the final results are as below [according to the paper, ser f1 should be 83.39%, re f1 should be 74.91%] >...