www.ziwang.com
www.ziwang.com
[https://github.com/jasonvanf/llama-trl](https://github.com/jasonvanf/llama-trl) LLaMA-TRL 使用PPO和LoRA微调LLaMA 使用 TRL(变压器强化学习)实施 PPO(近端策略优化) 使用 PEFT(参数高效微调)实现 LoRA(大型语言模型的低秩适配) 从此存储库 [GPT-4-LLM](https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM) 收集遵循指令的数据
用RLHF可选LoRA对LLaMA和MOSS进行训练|使用 RLHF 训练 LLaMA 或 MOSS [https://github.com/Miraclemarvel55/LLaMA-MOSS-RLHF-LoRA](https://github.com/Miraclemarvel55/LLaMA-MOSS-RLHF-LoRA) LLaMA-MOSS-RLHF-LoRA 本代码的RLHF代码不需要Megatron或者deepspeed框架, 只需要传统的炼丹torch和显卡就好了,RLHF的Critic用的目标GPT的缩小版本,而Reward咱们直接使用一个和目标输出比较的相似度模型即可。这样只需要学习核心的PPO算法即可,其他的都是已经了解的模型和结构。非常有利于NLPer进军RLHF,似乎看起来只需要RLHF也能finetune模型。 代码里面可选LLaMA或者MOSS,优化方式LoRA是可选的喔。 功能: RLHF数据格式的定义和使用√ 只用RLHF就对模型进行了微调√ 让模型认主√ 修改自我认知钢印 主人的姓名 Robot的昵称 batch 化生成多个不同的prompt,再同时RLHF×
[https://github.com/kuleshov-group/llmtune](https://github.com/kuleshov-group/llmtune) LLMTune:消费者GPU上LLM的4位微调 LLMTune允许在一个消费级GPU上微调LLM(例如,最大的65B LLAMA模型)。 其功能包括: 对多个LLM的模块化支持(目前为LLAMA,OPT) 支持各种消费级 NVidia GPU;65B 美洲驼在一台 A6000 上进行微调 小巧易用的代码库 能够在一个 GPU 上微调较大的 LLM(例如,65B 参数)的一个好处是能够轻松地将数据并行性用于大型模型。 在引擎盖下, LLMTune 在使用 GPTQ 算法压缩的 LLM 上实现 LoRA 算法, 这需要为量化的 LLM 实现向后传递.有关各种...
[https://github.com/zcc31415926/lora_wrapper](https://github.com/zcc31415926/lora_wrapper) 定制的低秩适配包装器,可实现高效的微调 有关LoRA高效微调技术的详细信息,请参阅[LoRA的官方实现](https://github.com/microsoft/LoRA)
[https://github.com/poteminr/medner](https://github.com/poteminr/medner) 俄罗斯扁平数据集的美洲驼模型微调
[https://github.com/seycho/python_mini_script-LoRA_WSI](https://github.com/seycho/python_mini_script-LoRA_WSI) LoRA TCGA-LUAD 发生器 制作参考肺腺癌WSI贴片图像(TCGA-LUAD)的虚假病理图像。 https://portal.gdc.cancer.gov/projects/TCGA-LUAD 基本模型是跑道ml/稳定扩散-v1-5 https://huggingface.co/runwayml/stable-diffusion-v1-5 数据准备 图块大小为 500 微米,间隔大小相同,调整大小为 128 x 128 像素。他们有两种类型的标题,即正面贴片图像中的“H&E染色病理学图像与肺腺癌”和负片图像中的“H&E染色病理学图像与肺正常”。./total 目录中的示例数据。 训练洛拉
[https://github.com/Prsaro/lora_dualnetwork](https://github.com/Prsaro/lora_dualnetwork) 双LoRA网络实现风格融合 [Arxiv](https://github.com/Prsaro/lora_dualnetwork/blob/main) • [依赖](https://github.com/Prsaro/lora_dualnetwork#dependency) • [培训](https://github.com/Prsaro/lora_dualnetwork#training) • 测试 • [日志](https://github.com/Prsaro/lora_dualnetwork#demo) [•](https://github.com/Prsaro/lora_dualnetwork#pre-trained-models-and-results) [引用](https://github.com/Prsaro/lora_dualnetwork#citation) python license 从使用 [lora 块权重](https://raw.githubusercontent.com/hako-mikan/sd-webui-lora-block-weight/)的 LoRA 分层控制中汲取灵感, 我们开发了这个脚本.在 SD LoRA 模型中, 当多个 LoRA 模型堆叠时,可能会发生特征融合和崩溃, 极大地限制了 LoRA 模型的使用案例.为了缓解这个问题,...
[https://github.com/danielgrittner/nanoGPT-LoRA](https://github.com/danielgrittner/nanoGPT-LoRA) 用于训练/微调中型 GPT 的最简单、最快的存储库。这是[对minGPT](https://github.com/karpathy/minGPT)的改写,将牙齿置于教育之上。仍在积极开发中,但目前该文件在OpenWebText上重现GPT-2(124M),在大约4天的训练中在单个8XA100 40GB节点上运行。代码本身简单易读:是一个 ~300 行的样板训练循环和一个 ~300 行的 GPT 模型定义,可以选择从 OpenAI 加载 GPT-2 权重。
LoRACSE: 使用 LoRA 对句子嵌入的对比学习 [https://github.com/tic-top/LoraCSE](https://github.com/tic-top/LoraCSE) EECS 487的最终项目:自然语言处理导论(Umich) 导演:贾一林、李思凯、麦玉琪 日期: 18 4月, 2023 指示 该项目涉及通过一系列实验评估 LoraCSE 模型的性能.下面介绍如何访问和运行代码: 打开 LoraCSE.ipynb 笔记本以查看并运行所有实验的代码。 按照笔记本中提供的说明使用 GPU 运行实验并查看结果。 运行实验后, 请参阅随附的 LoRACSE.pdf 文件以获取结果的详细分析. LoRACSE.pdf中提供的分析提供了对LoraCSE模型的性能及其处理不同类型数据的能力的见解。使用此信息可提高模型针对特定用例的准确性。
[https://github.com/tic-top/MoreLoRA](https://github.com/tic-top/MoreLoRA) 将两个lora矩阵相乘,相加