zero-lora icon indicating copy to clipboard operation
zero-lora copied to clipboard

用RLHF可选LoRA对LLaMA和MOSS进行训练

Open ziwang-com opened this issue 2 years ago • 0 comments
trafficstars

用RLHF可选LoRA对LLaMA和MOSS进行训练|使用 RLHF 训练 LLaMA 或 MOSS https://github.com/Miraclemarvel55/LLaMA-MOSS-RLHF-LoRA LLaMA-MOSS-RLHF-LoRA 本代码的RLHF代码不需要Megatron或者deepspeed框架, 只需要传统的炼丹torch和显卡就好了,RLHF的Critic用的目标GPT的缩小版本,而Reward咱们直接使用一个和目标输出比较的相似度模型即可。这样只需要学习核心的PPO算法即可,其他的都是已经了解的模型和结构。非常有利于NLPer进军RLHF,似乎看起来只需要RLHF也能finetune模型。

代码里面可选LLaMA或者MOSS,优化方式LoRA是可选的喔。

功能: RLHF数据格式的定义和使用√ 只用RLHF就对模型进行了微调√ 让模型认主√ 修改自我认知钢印 主人的姓名 Robot的昵称 batch 化生成多个不同的prompt,再同时RLHF×

ziwang-com avatar May 19 '23 01:05 ziwang-com