zero-lora 用RLHF可选LoRA对LLaMA和MOSS进行训练

用RLHF可选LoRA对LLaMA和MOSS进行训练

Open ziwang-com opened this issue 2 years ago • 0 comments

trafficstars

用RLHF可选LoRA对LLaMA和MOSS进行训练|使用 RLHF 训练 LLaMA 或 MOSS https://github.com/Miraclemarvel55/LLaMA-MOSS-RLHF-LoRA LLaMA-MOSS-RLHF-LoRA 本代码的RLHF代码不需要Megatron或者deepspeed框架，只需要传统的炼丹torch和显卡就好了，RLHF的Critic用的目标GPT的缩小版本，而Reward咱们直接使用一个和目标输出比较的相似度模型即可。这样只需要学习核心的PPO算法即可，其他的都是已经了解的模型和结构。非常有利于NLPer进军RLHF，似乎看起来只需要RLHF也能finetune模型。

代码里面可选LLaMA或者MOSS，优化方式LoRA是可选的喔。

功能： RLHF数据格式的定义和使用√ 只用RLHF就对模型进行了微调√ 让模型认主√ 修改自我认知钢印主人的姓名 Robot的昵称 batch 化生成多个不同的prompt，再同时RLHF×

May 19 '23 01:05 ziwang-com

zero-lora zero-lora copied to clipboard

用RLHF可选LoRA对LLaMA和MOSS进行训练

zero-lora
zero-lora copied to clipboard