RRHF
RRHF copied to clipboard
[NIPS2023] RRHF & Wombat
关于ppl的方差
我在hh数据集上训练模型,并统计ppl,只基于回答计算ppl,发现ppl的方差特别大,一些特别短的回复,比如"270 votes",ppl可以达到35000多,我看RRHF论文中没有提及ppl的方差,想问一下是否也有类似的情况
我看到在sft_loss 的时候直接求了平均,平均的分母是样本label的长度,包括不参与训练的,是否应该采用mask mean 就像: item = -logit_label[max_idx] return -torch.sum(item)/ torch.sum(labels!=-100)。##因为在gather_logits_labels 这一步把-100的prob已经变成0了 而不是-logit_label[max_idx].mean() 
计算sft损失的时候label和logits貌似没有shift,是我理解有问题吗? 应该是new_logits = logits[:,:-1,:] 
 这里batch size设置为1时,逻辑没有问题。当batch size!=1时,会出现tensor size不match的情况。
数据构造问题
请问在生成response的时候,这里为什么要在加上后边50个,最后50个数据不就重复了吗 
小心询问,是否有给出alpaca-7B和LLaMA-7B的hugging face地址?在原文中没有发现/(ㄒoㄒ)/~~
您好~想请问一下您在附录中有关IMDB情感分类数据集的实验细节。因为数据集中对每个query只包含单条样本,我们尝试使用imdb-gpt2进行采样扩充出另一条样本,可是效果不是很理想,所以想请问一下您是如何构建RRHF的训练样本对的呢 祝好~:)
加载模型的问题
感谢作者的开源!想问一下如果我用的SFT模型是chatglm2,代码需要改动很多地方吗?
您好!我想要在自己的数据集上复现RRHF的工作,用原始脚本用八张A100运行会在训练开始前就报错OOM。以及RRHF的训练可以使用两张A100,打开gradient_checkpointing来实现吗? 万分感谢!
想请问一下,有比较不同reward来源的实验吗?即比较“开源reward model”和“ChatGPT”分别作为reward score来源的效果孰优孰劣吗?