Tao2817

Results 4 comments of Tao2817

没错,量化需要很长时间,不过你可以用pickle将量化后的模型保存,然后下次运行直接用pickle加载再进行之后的步骤。我这样做了之后省去了量化的过程,模型启动很快。关于显存的占用你可以手动对history进行条数限制防止显存不够。 保存: >import pickle >from transformers import AutoModel >#4或者8 >quantizationBit = 8 > >model = AutoModel.from_pretrained("chatglm-6b", trust_remote_code=True) >model = model.half().quantize(quantizationBit) >print("量化完毕") >with open(f'{quantizationBit}bit.preq', 'wb') as f: > pickle.dump(model, f) >print("保存量化完毕")...

这个我就不知道了,我完全不懂这方面。微调可以参考[这个项目](https://github.com/mymusise/ChatGLM-Tuning),有人跑通了https://www.bilibili.com/opus/774083081235595299

可以专门分离一个保存量化后模型的脚本,然后在主脚本里加入使用预量化模型的选项