suc16

https://scholar.google.com.hk/citations?hl=zh-CN&user=IyrO2kYAAAAJ [email protected]

Qifu Technology, Inc. BeiJing, China

Results 78 comments of


                                            suc16

大佬们，能提供api.py吗？类似https://github.com/THUDM/ChatGLM-6B/blob/main/api.py

> 这个repo好像也集成了chatglm了，可以参考下: https://github.com/oobabooga/text-generation-webui 这个repo确实更便于参考，stream_generate的api也实现了，fastchat改动难度有点大

没有看到RLHF的代码

> 训练 Reward Model 需要执行 SeqCLS 这个Task： huggingface 的 transformer 提供 "AutoModelForSequenceClassification" 这个类。但是 ChatGLM 只有 "ChatGLMForConditionalGeneration" 这个类。所以暂时没法训练 Reward model，等ChatGLM自己放出代码，或者huggingface 集成 ChatGLM吧 transformers似乎没有计划支持chatglm，所以直接用trl去rlhf不太现实

没有看到RLHF的代码

> > > 训练 Reward Model 需要执行 SeqCLS 这个Task： huggingface 的 transformer 提供 "AutoModelForSequenceClassification" 这个类。但是 ChatGLM 只有 "ChatGLMForConditionalGeneration" 这个类。所以暂时没法训练 Reward model，等ChatGLM自己放出代码，或者huggingface 集成 ChatGLM吧 > > > > > > transformers似乎没有计划支持chatglm，所以直接用trl去rlhf不太现实...

没有看到RLHF的代码

> > > > 这个真不错啊，谢谢。想不到colossalai竟然支持了chatglm 那个yynil大佬比较强，他改的太多了，根本不可能合入主分支。不过是真的能跑啊，我已经跑通了。

没有看到RLHF的代码

> > 这个里面有说明无标签数据格式了吗有，RM数据集每条 PROMPT + 正样本 + 负样本，PPO阶段的数据集每条 PROMPT

没有看到RLHF的代码

> > 这个里面有说明无标签数据格式了吗 > > > > > 这个里面有说明无标签数据格式了吗 > > > > > > 有，RM数据集每条 PROMPT + 正样本 + 负样本，PPO阶段的数据集每条 PROMPT > > 微调SFT的时候还是5万个prompt吧？ PPO阶段如何搜集大量的prompt呢？chatGPT学习了万亿级的数据，难道都是通过prompt吗？是不是通过什么方法来产生大量的prompt？先跑通流程吧（手动狗头）

没有看到RLHF的代码

> > > > > > > 这个里面有说明无标签数据格式了吗 > > > > > > > > > > > > 这个里面有说明无标签数据格式了吗 > > > > > > > > >...

没有看到RLHF的代码

> > > 训练 Reward Model 需要执行 SeqCLS 这个Task： huggingface 的 transformer 提供 "AutoModelForSequenceClassification" 这个类。但是 ChatGLM 只有 "ChatGLMForConditionalGeneration" 这个类。所以暂时没法训练 Reward model，等ChatGLM自己放出代码，或者huggingface 集成 ChatGLM吧 > > > > > > transformers似乎没有计划支持chatglm，所以直接用trl去rlhf不太现实...

没有看到RLHF的代码

> > > > > > > > > > > > > > > > 这个里面有说明无标签数据格式了吗 > > > > > > > > > > > > >...

没有看到RLHF的代码

> > > > > > > > > > > > > > > > > > > > > > > > > > > > 这个里面有说明无标签数据格式了吗 >...

‹
1
2
3
4
5
6
7
8
›