zero-lora LLaMA-TRL 使用PPO和LoRA微调LLaMA

LLaMA-TRL 使用PPO和LoRA微调LLaMA

Open ziwang-com opened this issue 1 year ago • 0 comments

使用 TRL（变压器强化学习）实施 PPO（近端策略优化）使用 PEFT（参数高效微调）实现 LoRA（大型语言模型的低秩适配）从此存储库 GPT-4-LLM 收集遵循指令的数据

May 19 '23 01:05 ziwang-com