Results 78 comments of suc16

> 这个repo好像也集成了chatglm了,可以参考下: https://github.com/oobabooga/text-generation-webui 这个repo确实更便于参考,stream_generate的api也实现了,fastchat改动难度有点大

> 训练 Reward Model 需要执行 SeqCLS 这个Task: huggingface 的 transformer 提供 "AutoModelForSequenceClassification" 这个类。但是 ChatGLM 只有 "ChatGLMForConditionalGeneration" 这个类。所以暂时没法训练 Reward model,等ChatGLM自己放出代码,或者huggingface 集成 ChatGLM吧 transformers似乎没有计划支持chatglm,所以直接用trl去rlhf不太现实

> > > 训练 Reward Model 需要执行 SeqCLS 这个Task: huggingface 的 transformer 提供 "AutoModelForSequenceClassification" 这个类。但是 ChatGLM 只有 "ChatGLMForConditionalGeneration" 这个类。所以暂时没法训练 Reward model,等ChatGLM自己放出代码,或者huggingface 集成 ChatGLM吧 > > > > > > transformers似乎没有计划支持chatglm,所以直接用trl去rlhf不太现实...

> > > > 这个真不错啊,谢谢。 想不到colossalai竟然支持了chatglm 那个yynil大佬比较强,他改的太多了,根本不可能合入主分支。不过是真的能跑啊,我已经跑通了。

> > 这个里面有说明无标签数据格式了吗 有,RM数据集每条 PROMPT + 正样本 + 负样本,PPO阶段的数据集每条 PROMPT

> > 这个里面有说明无标签数据格式了吗 > > > > > 这个里面有说明无标签数据格式了吗 > > > > > > 有,RM数据集每条 PROMPT + 正样本 + 负样本,PPO阶段的数据集每条 PROMPT > > 微调SFT的时候还是5万个prompt吧? PPO阶段如何搜集大量的prompt呢?chatGPT学习了万亿级的数据,难道都是通过prompt吗?是不是通过什么方法来产生大量的prompt? 先跑通流程吧(手动狗头)

> > > > > > > 这个里面有说明无标签数据格式了吗 > > > > > > > > > > > > 这个里面有说明无标签数据格式了吗 > > > > > > > > >...

> > > 训练 Reward Model 需要执行 SeqCLS 这个Task: huggingface 的 transformer 提供 "AutoModelForSequenceClassification" 这个类。但是 ChatGLM 只有 "ChatGLMForConditionalGeneration" 这个类。所以暂时没法训练 Reward model,等ChatGLM自己放出代码,或者huggingface 集成 ChatGLM吧 > > > > > > transformers似乎没有计划支持chatglm,所以直接用trl去rlhf不太现实...

> > > > > > > > > > > > > > > > 这个里面有说明无标签数据格式了吗 > > > > > > > > > > > > >...

> > > > > > > > > > > > > > > > > > > > > > > > > > > > 这个里面有说明无标签数据格式了吗 >...