zero-lora icon indicating copy to clipboard operation
zero-lora copied to clipboard

LLaMA-TRL 使用PPO和LoRA微调LLaMA

Open ziwang-com opened this issue 1 year ago • 0 comments

https://github.com/jasonvanf/llama-trl LLaMA-TRL 使用PPO和LoRA微调LLaMA

使用 TRL(变压器强化学习)实施 PPO(近端策略优化) 使用 PEFT(参数高效微调)实现 LoRA(大型语言模型的低秩适配) 从此存储库 GPT-4-LLM 收集遵循指令的数据

ziwang-com avatar May 19 '23 01:05 ziwang-com