RRHF
RRHF copied to clipboard

Published 20 hours ago •

→

Metadata

[NIPS2023] RRHF & Wombat

Reame
Issues

Results 26 RRHF issues

Sort by recently updated

关于ppl的方差

1

comment

我在hh数据集上训练模型，并统计ppl，只基于回答计算ppl，发现ppl的方差特别大，一些特别短的回复，比如"270 votes"，ppl可以达到35000多，我看RRHF论文中没有提及ppl的方差，想问一下是否也有类似的情况

算loss的时候求均值的时候是不是可以优化

6

comment

我看到在sft_loss 的时候直接求了平均，平均的分母是样本label的长度，包括不参与训练的，是否应该采用mask mean 就像： item = -logit_label[max_idx] return -torch.sum(item)/ torch.sum(labels!=-100)。##因为在gather_logits_labels 这一步把-100的prob已经变成0了而不是-logit_label[max_idx].mean() ![image](https://github.com/GanjinZero/RRHF/assets/23413415/1ed10311-b175-4be6-8b0f-e514c046edd2)

bug 计算sft损失的时候

2

comment

计算sft损失的时候label和logits貌似没有shift，是我理解有问题吗？应该是new_logits = logits[:,:-1,:] ![image](https://github.com/GanjinZero/RRHF/assets/23413415/38e9e92e-a088-494c-8390-e76541b7c45c)

loss的代码关于batch size的处理有bug。

4

comment

![企业微信截图_16832967678761](https://user-images.githubusercontent.com/48375360/236485946-52f3cee5-2428-4d7c-889d-3e49f7b916a2.png) 这里batch size设置为1时，逻辑没有问题。当batch size！=1时，会出现tensor size不match的情况。

数据构造问题

1

comment

请问在生成response的时候，这里为什么要在加上后边50个，最后50个数据不就重复了吗 ![image](https://github.com/GanjinZero/RRHF/assets/85541451/67173870-ab99-4d74-9e64-a07188732620)

关于alpaca-7B和LLaMA-7B

3

comment

小心询问，是否有给出alpaca-7B和LLaMA-7B的hugging face地址？在原文中没有发现/(ㄒoㄒ)/~~

有关IMDB数据集的问题

2

comment

您好~想请问一下您在附录中有关IMDB情感分类数据集的实验细节。因为数据集中对每个query只包含单条样本，我们尝试使用imdb-gpt2进行采样扩充出另一条样本，可是效果不是很理想，所以想请问一下您是如何构建RRHF的训练样本对的呢祝好~：）

加载模型的问题

11

comment

感谢作者的开源！想问一下如果我用的SFT模型是chatglm2，代码需要改动很多地方吗？

训练过程OOM的问题

1

comment

您好！我想要在自己的数据集上复现RRHF的工作，用原始脚本用八张A100运行会在训练开始前就报错OOM。以及RRHF的训练可以使用两张A100，打开gradient_checkpointing来实现吗？万分感谢！

Wombat与RRHF

4

comment

想请问一下，有比较不同reward来源的实验吗？即比较“开源reward model”和“ChatGPT”分别作为reward score来源的效果孰优孰劣吗？

1
2
3
›

About

[NIPS2023] RRHF & Wombat

758

Stars

48

Forks

Watchers

Owner

← Metadata

758

Stars

48

Forks

Watchers

Owner

Metadata

[NIPS2023] RRHF & Wombat