zero-lora
zero-lora copied to clipboard
Sparsebit是一个具有修剪和量化功能的工具包
https://github.com/megvii-research/Sparsebit
Sparsebit是一个具有修剪和量化功能的工具包。它旨在帮助研究人员通过修改现有pytorch项目中的几个代码来压缩和加速神经网络模型。
量化 量化将全精度参数转换为低位精度参数,可以在不改变模型结构的情况下压缩和加速模型。该工具包支持两种常见的量化范例,即训练后量化和量化感知训练,具有以下功能:
得益于torch.fx的支持,Sparsebit在QuantModel上运行,每个操作都成为QuantModule。 用户可以轻松地扩展Sparsebit以适应他们自己的研究。用户可以自行注册以扩展重要对象,例如QuantModule,Quantizer和Observer 支持导出 QDQ-ONNX,可以通过 TensorRT 和 OnnxRuntime 等后端加载和部署。