www.ziwang.com issues

Results 180 issues of


                                            www.ziwang.com

LLaMA-TRL 使用PPO和LoRA微调LLaMA

[https://github.com/jasonvanf/llama-trl](https://github.com/jasonvanf/llama-trl) LLaMA-TRL 使用PPO和LoRA微调LLaMA 使用 TRL（变压器强化学习）实施 PPO（近端策略优化）使用 PEFT（参数高效微调）实现 LoRA（大型语言模型的低秩适配）从此存储库 [GPT-4-LLM](https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM) 收集遵循指令的数据

用RLHF可选LoRA对LLaMA和MOSS进行训练

用RLHF可选LoRA对LLaMA和MOSS进行训练|使用 RLHF 训练 LLaMA 或 MOSS [https://github.com/Miraclemarvel55/LLaMA-MOSS-RLHF-LoRA](https://github.com/Miraclemarvel55/LLaMA-MOSS-RLHF-LoRA) LLaMA-MOSS-RLHF-LoRA 本代码的RLHF代码不需要Megatron或者deepspeed框架，只需要传统的炼丹torch和显卡就好了，RLHF的Critic用的目标GPT的缩小版本，而Reward咱们直接使用一个和目标输出比较的相似度模型即可。这样只需要学习核心的PPO算法即可，其他的都是已经了解的模型和结构。非常有利于NLPer进军RLHF，似乎看起来只需要RLHF也能finetune模型。代码里面可选LLaMA或者MOSS，优化方式LoRA是可选的喔。功能： RLHF数据格式的定义和使用√ 只用RLHF就对模型进行了微调√ 让模型认主√ 修改自我认知钢印主人的姓名 Robot的昵称 batch 化生成多个不同的prompt，再同时RLHF×

LLMTune：消费者GPU上LLM的4位微调

[https://github.com/kuleshov-group/llmtune](https://github.com/kuleshov-group/llmtune) LLMTune：消费者GPU上LLM的4位微调 LLMTune允许在一个消费级GPU上微调LLM（例如，最大的65B LLAMA模型）。其功能包括：对多个LLM的模块化支持（目前为LLAMA，OPT）支持各种消费级 NVidia GPU;65B 美洲驼在一台 A6000 上进行微调小巧易用的代码库能够在一个 GPU 上微调较大的 LLM（例如，65B 参数）的一个好处是能够轻松地将数据并行性用于大型模型。在引擎盖下， LLMTune 在使用 GPTQ 算法压缩的 LLM 上实现 LoRA 算法，这需要为量化的 LLM 实现向后传递.有关各种...

定制的lora_wrapper，可实现高效的微调

[https://github.com/zcc31415926/lora_wrapper](https://github.com/zcc31415926/lora_wrapper) 定制的低秩适配包装器，可实现高效的微调有关LoRA高效微调技术的详细信息，请参阅[LoRA的官方实现](https://github.com/microsoft/LoRA)

俄罗斯扁平数据集的美洲驼模型微调

[https://github.com/poteminr/medner](https://github.com/poteminr/medner) 俄罗斯扁平数据集的美洲驼模型微调

LoRA TCGA-LUAD 发生器

[https://github.com/seycho/python_mini_script-LoRA_WSI](https://github.com/seycho/python_mini_script-LoRA_WSI) LoRA TCGA-LUAD 发生器制作参考肺腺癌WSI贴片图像（TCGA-LUAD）的虚假病理图像。 https://portal.gdc.cancer.gov/projects/TCGA-LUAD 基本模型是跑道ml/稳定扩散-v1-5 https://huggingface.co/runwayml/stable-diffusion-v1-5 数据准备图块大小为 500 微米，间隔大小相同，调整大小为 128 x 128 像素。他们有两种类型的标题，即正面贴片图像中的“H&E染色病理学图像与肺腺癌”和负片图像中的“H&E染色病理学图像与肺正常”。./total 目录中的示例数据。训练洛拉

双LoRA网络实现风格融合

[https://github.com/Prsaro/lora_dualnetwork](https://github.com/Prsaro/lora_dualnetwork) 双LoRA网络实现风格融合 [Arxiv](https://github.com/Prsaro/lora_dualnetwork/blob/main) • [依赖](https://github.com/Prsaro/lora_dualnetwork#dependency) • [培训](https://github.com/Prsaro/lora_dualnetwork#training) • 测试 • [日志](https://github.com/Prsaro/lora_dualnetwork#demo) [•](https://github.com/Prsaro/lora_dualnetwork#pre-trained-models-and-results) [引用](https://github.com/Prsaro/lora_dualnetwork#citation) python license 从使用 [lora 块权重](https://raw.githubusercontent.com/hako-mikan/sd-webui-lora-block-weight/)的 LoRA 分层控制中汲取灵感，我们开发了这个脚本.在 SD LoRA 模型中，当多个 LoRA 模型堆叠时，可能会发生特征融合和崩溃，极大地限制了 LoRA 模型的使用案例.为了缓解这个问题，...

简单，快捷训练/微调具有 LoRA 支持的中型 GPT。

[https://github.com/danielgrittner/nanoGPT-LoRA](https://github.com/danielgrittner/nanoGPT-LoRA) 用于训练/微调中型 GPT 的最简单、最快的存储库。这是[对minGPT](https://github.com/karpathy/minGPT)的改写，将牙齿置于教育之上。仍在积极开发中，但目前该文件在OpenWebText上重现GPT-2（124M），在大约4天的训练中在单个8XA100 40GB节点上运行。代码本身简单易读：是一个 ~300 行的样板训练循环和一个 ~300 行的 GPT 模型定义，可以选择从 OpenAI 加载 GPT-2 权重。

LoRACSE：使用 LoRA 对句子嵌入的对比学习

LoRACSE：使用 LoRA 对句子嵌入的对比学习 [https://github.com/tic-top/LoraCSE](https://github.com/tic-top/LoraCSE) EECS 487的最终项目：自然语言处理导论（Umich）导演：贾一林、李思凯、麦玉琪日期： 18 4月， 2023 指示该项目涉及通过一系列实验评估 LoraCSE 模型的性能.下面介绍如何访问和运行代码：打开 LoraCSE.ipynb 笔记本以查看并运行所有实验的代码。按照笔记本中提供的说明使用 GPU 运行实验并查看结果。运行实验后，请参阅随附的 LoRACSE.pdf 文件以获取结果的详细分析. LoRACSE.pdf中提供的分析提供了对LoraCSE模型的性能及其处理不同类型数据的能力的见解。使用此信息可提高模型针对特定用例的准确性。

梯度视角下的LoRA：简介、分析、猜测及推广

[https://github.com/tic-top/MoreLoRA](https://github.com/tic-top/MoreLoRA) 将两个lora矩阵相乘，相加