zero-lora
zero-lora copied to clipboard
LLaMA-TRL 使用PPO和LoRA微调LLaMA
https://github.com/jasonvanf/llama-trl LLaMA-TRL 使用PPO和LoRA微调LLaMA
使用 TRL(变压器强化学习)实施 PPO(近端策略优化) 使用 PEFT(参数高效微调)实现 LoRA(大型语言模型的低秩适配) 从此存储库 GPT-4-LLM 收集遵循指令的数据