dongdongrj
dongdongrj
Change the LR by below code: K.set_value(model.optimizer.lr, 0.0001)
> 请问有啥推荐的模型吗? 请问有好的模型推荐吗
> 应该是内存不足,可以尝试使用INT4量化的模型 https://huggingface.co/THUDM/chatglm-6b-int4 谢谢。
> > 应该是内存不足,可以尝试使用INT4量化的模型 https://huggingface.co/THUDM/chatglm-6b-int4 > > 谢谢,用int4确实可以。 如果把模型文件下载到硬盘,会不会好点。我之前直接跑infer是可以的。infer是把模型下载下来的。
> 英文任务LLaMA比chatglm效果好很多 > > 这里用alpaca只是例子,如果要做中文的增强,也可以用类似belle等中文数据集进行SFT,方法是一样的 做代码的增强,有什么好的数据集吗
> 训练 Reward Model 需要执行 SeqCLS 这个Task: huggingface 的 transformer 提供 "AutoModelForSequenceClassification" 这个类。但是 ChatGLM 只有 "ChatGLMForConditionalGeneration" 这个类。所以暂时没法训练 Reward model,等ChatGLM自己放出代码,或者huggingface 集成 ChatGLM吧 我就是想看看,是如何训练RM及如何用RM再训练RL的。大量的无标签的数据格式是怎么样的,这个你知道吗。
> > 训练 Reward Model 需要执行 SeqCLS 这个Task: huggingface 的 transformer 提供 "AutoModelForSequenceClassification" 这个类。但是 ChatGLM 只有 "ChatGLMForConditionalGeneration" 这个类。所以暂时没法训练 Reward model,等ChatGLM自己放出代码,或者huggingface 集成 ChatGLM吧 > > transformers似乎没有计划支持chatglm,所以直接用trl去rlhf不太现实 你说的trl是什么?迁移学习吗
> 这个真不错啊,谢谢。 想不到colossalai竟然支持了chatglm
> 这个里面有说明无标签数据格式了吗
> 这个里面有说明无标签数据格式了吗 > > > 这个里面有说明无标签数据格式了吗 > > 有,RM数据集每条 PROMPT + 正样本 + 负样本,PPO阶段的数据集每条 PROMPT 微调SFT的时候还是5万个prompt吧? PPO阶段如何搜集大量的prompt呢?chatGPT学习了万亿级的数据,难道都是通过prompt吗?是不是通过什么方法来产生大量的prompt?