www.ziwang.com
www.ziwang.com
[https://github.com/oobabooga/text-generation-webui/issues/1088](https://github.com/oobabooga/text-generation-webui/issues/1088) 似乎可以用低至 6Gib VRAM 微调 INT4 LLM,这要归功于[随机/xturing](https://github.com/stochasticai/xturing):https://github.com/stochasticai/xturing#-new-feature---int4-fine-tuning-with-llama-lora 将此功能集成到文本生成中会很棒 webui . 谢谢! 其他上下文 https://github.com/stochasticai/xturing/blob/main/examples/int4_finetuning/README.md
[https://github.com/oobabooga/text-generation-webui/issues/959](https://github.com/oobabooga/text-generation-webui/issues/959) 我尝试从 https://github.com/ymcui/Chinese-LLaMA-Alpaca 加载 lora,https://huggingface.co/ziqingyang/chinese-llama-lora-7b 它报告了以下错误: RuntimeError('Error(s) in load state_dict for {}:\n\t{}'.format( RuntimeError: Errors in loading state_dict for PeftModelForCausalLM: size 不匹配 for base_model.model.model.embed_tokens.weight: 使用形状火炬复制参数。尺寸([49954, 4096]) 从检查点开始,当前模型中的形状是割炬。大小([32000, 4096])。 base_model.model.lm_head.weight的大小不匹配:使用形状火炬复制参数。尺寸([49954, 4096]) 从检查点开始,当前模型中的形状是割炬。大小([32000,...
[https://github.com/johnsmith0031/alpaca_lora_4bit](https://github.com/johnsmith0031/alpaca_lora_4bit) 对 peft 和 gptq 中的代码进行了一些调整,用于美洲驼, 并使 lora 微调成为可能 4 位基本模型.可以对 2、3 和 8 位进行相同的调整。 text_generation_webui推理性能更佳,速度提高约 40% 简单体验结果: 组大小 = 128 的 7b 模型 没有操作顺序 从 13 个令牌/秒提高到 20 个令牌/秒...
[https://github.com/deep-diver/vicuna-lora](https://github.com/deep-diver/vicuna-lora) 此存储库包含使用[低秩自适应 (LoRA)](https://arxiv.org/pdf/2106.09685.pdf) 重现[斯坦福羊驼](https://github.com/tatsu-lab/stanford_alpaca)结果的代码。我们提供了一个质量与可以在 [Raspberry Pi 上运行](https://twitter.com/miolini/status/1634982361757790209)的 Instruct 模型(用于研究)类似的模型,并且代码很容易扩展到 、 和 模型。text-davinci-00313b30b65b 除了在单个RTX 4090上在数小时内运行的训练代码之外,我们还发布了一个脚本,用于下载和推理基础模型和LoRA,以及生成的[LoRA权重本身](https://huggingface.co/tloen/alpaca-lora-7b/tree/main)。为了廉价而高效地进行微调,我们使用Hugging Face的[PEFT](https://github.com/huggingface/peft)以及Tim Dettmers的[bitsandbytes](https://github.com/TimDettmers/bitsandbytes)。 在没有超参数调整的情况下, LoRA 模型产生的输出可与斯坦福羊驼模型相媲美.(请参阅下面包含的输出。进一步调整可能能够实现更好的性能;我邀请感兴趣的用户尝试一下并报告他们的结果。
[https://github.com/deep-diver/LLM-As-Chatbot](https://github.com/deep-diver/LLM-As-Chatbot) 用大量开源指令遵循微调的LLM模型作为聊天机器人服务。当前重点模型是 、、 和 。由于不同的模型行为不同,并且不同的模型需要以不同的方式形成提示 不同的模型可能有不同的策略来管理上下文,因此,如果您想知道应用于每个模型的确切策略,请查看[聊天](https://github.com/deep-diver/LLM-As-Chatbot/tree/main/chats)目录。但是,以下是我最初提出的基本想法。我发现长提示最终会减慢生成过程,所以我认为提示应该尽可能简短,同时尽可能简洁。在以前的版本中,我已经积累了过去的所有对话,但这并不顺利。 在对话的每一个转折中,过去的对话都会被保留。将 视为超参数。作为实验,目前仅保留所有模型的过去 2-3 次对话。NN 在对话的每个回合中,它都会总结或提取信息。总结的信息将在每次对话中给出。 当前支持的型号
[https://github.com/KohakuBlueleaf/LyCORIS](https://github.com/KohakuBlueleaf/LyCORIS) LyCORIS - Lora beYond 常规方法,其他秩自适应实现稳定扩散。 一个用于实现不同算法以对稳定扩散或更多进行参数高效微调的项目。 此项目从 LoCon 启动(请参阅存档分支)。
[https://github.com/KohakuBlueleaf/guanaco-lora](https://github.com/KohakuBlueleaf/guanaco-lora) 瓜纳科-洛拉: LoRA 用于培训多语言教学 - 基于 LLaMA 的 LM 🤗 [在此处](https://huggingface.co/KBlueLeaf/guanaco-7b-leh-v2)试用预训练模型 这个存储库是从 alpaca-lora 分叉的, 并引入了一种方法来训练更多模块,如嵌入/头与 lora. 使用训练有素的嵌入和头部,您可以在多语言性能上获得更好的结果。
[https://github.com/megvii-research/Sparsebit](https://github.com/megvii-research/Sparsebit) Sparsebit是一个具有修剪和量化功能的工具包。它旨在帮助研究人员通过修改现有pytorch项目中的几个代码来压缩和加速神经网络模型。 量化 量化将全精度参数转换为低位精度参数,可以在不改变模型结构的情况下压缩和加速模型。该工具包支持两种常见的量化范例,即训练后量化和量化感知训练,具有以下功能: 得益于torch.fx的支持,Sparsebit在QuantModel上运行,每个操作都成为QuantModule。 用户可以轻松地扩展Sparsebit以适应他们自己的研究。用户可以自行注册以扩展重要对象,例如QuantModule,Quantizer和Observer 支持导出 [QDQ-ONNX](https://onnxruntime.ai/docs/tutorials/mobile/helpers/#qdq-format-model-helpers),可以通过 TensorRT 和 OnnxRuntime 等后端加载和部署。
[https://github.com/megvii-research/Sparsebit/tree/main/large_language_models/alpaca-qlora](https://github.com/megvii-research/Sparsebit/tree/main/large_language_models/alpaca-qlora) 有了alpaca-qlora支持,您可以使用单个2080ti来指导微调llama-7b / 13b。 [alpaca-lora](https://github.com/tloen/alpaca-lora)是一个伟大的项目,它允许在几个小时内在单个RTX4090上运行Instuct调谐。指令调整后,可以获得与文本达芬奇-003质量相似的指令模型。 但是,基础模型越大,获得的指令结果就越好。我们希望每个人都能享受到这个好处。因此, 我们提供 alpaca-qlora, 它将骨干量子化为 4 位,同时将 lora 参数保留为 fp16. 在alpaca-qlora中,将释放大约一半模型大小的GPU内存(例如,llama-7B将释放3.5GB)。当计算资源不足时,可以缓解需求;即使在有足够的计算资源的情况下,Alpaca-Qlora 也可以帮助扩展CUTOFF_LEN,这可能会改善您的 Instuct 调整结果或增加宏批次大小以减少您的训练时间。
[https://github.com/horseee/LLM-Pruner](https://github.com/horseee/LLM-Pruner) 为什么选择LLM-Pruner 与任务无关的压缩:压缩的LLM应保留其作为多任务求解器的原始能力。 更少的训练语料库:在这项工作中,我们只使用50k公开可用的样本(羊驼)来训练LLM。 高效压缩:修剪 3 分钟,训练后 3 小时。(你可以让它更长) 自动结构修剪:以最少的人力修剪新的LLM(正在进行中)。 LLM-Pruner:论大型语言模型的结构修剪[[论文]](https://drive.google.com/file/d/1mJyNkNZphoOw6OUl1caBKN54xflGFIoy/view?usp=share_link) 马欣银, 方公凡, 王新潮 新加坡国立大学 arxiv版本将很快发布。