RRHF icon indicating copy to clipboard operation
RRHF copied to clipboard

[NIPS2023] RRHF & Wombat

Results 23 RRHF issues
Sort by recently updated
recently updated
newest added

我在hh数据集上训练模型,并统计ppl,只基于回答计算ppl,发现ppl的方差特别大,一些特别短的回复,比如"270 votes",ppl可以达到35000多,我看RRHF论文中没有提及ppl的方差,想问一下是否也有类似的情况

我看到在sft_loss 的时候直接求了平均,平均的分母是样本label的长度,包括不参与训练的,是否应该采用mask mean 就像: item = -logit_label[max_idx] return -torch.sum(item)/ torch.sum(labels!=-100)。##因为在gather_logits_labels 这一步把-100的prob已经变成0了 而不是-logit_label[max_idx].mean() ![image](https://github.com/GanjinZero/RRHF/assets/23413415/1ed10311-b175-4be6-8b0f-e514c046edd2)

计算sft损失的时候label和logits貌似没有shift,是我理解有问题吗? 应该是new_logits = logits[:,:-1,:] ![image](https://github.com/GanjinZero/RRHF/assets/23413415/38e9e92e-a088-494c-8390-e76541b7c45c)

![企业微信截图_16832967678761](https://user-images.githubusercontent.com/48375360/236485946-52f3cee5-2428-4d7c-889d-3e49f7b916a2.png) 这里batch size设置为1时,逻辑没有问题。当batch size!=1时,会出现tensor size不match的情况。

请问在生成response的时候,这里为什么要在加上后边50个,最后50个数据不就重复了吗 ![image](https://github.com/GanjinZero/RRHF/assets/85541451/67173870-ab99-4d74-9e64-a07188732620)

小心询问,是否有给出alpaca-7B和LLaMA-7B的hugging face地址?在原文中没有发现/(ㄒoㄒ)/~~

您好~想请问一下您在附录中有关IMDB情感分类数据集的实验细节。因为数据集中对每个query只包含单条样本,我们尝试使用imdb-gpt2进行采样扩充出另一条样本,可是效果不是很理想,所以想请问一下您是如何构建RRHF的训练样本对的呢 祝好~:)

感谢作者的开源!想问一下如果我用的SFT模型是chatglm2,代码需要改动很多地方吗?

您好!我想要在自己的数据集上复现RRHF的工作,用原始脚本用八张A100运行会在训练开始前就报错OOM。以及RRHF的训练可以使用两张A100,打开gradient_checkpointing来实现吗? 万分感谢!

想请问一下,有比较不同reward来源的实验吗?即比较“开源reward model”和“ChatGPT”分别作为reward score来源的效果孰优孰劣吗?