Tao2817 comments

Results 4 comments of


                                            Tao2817

[BUG/Help] 在尝试运行8bit量化下的模型的时候，程序载入显存使用GPU十分缓慢；但我FP16精度加载时可以较为快速成功载入显存

没错，量化需要很长时间，不过你可以用pickle将量化后的模型保存，然后下次运行直接用pickle加载再进行之后的步骤。我这样做了之后省去了量化的过程，模型启动很快。关于显存的占用你可以手动对history进行条数限制防止显存不够。保存： >import pickle >from transformers import AutoModel >#4或者8 >quantizationBit = 8 > >model = AutoModel.from_pretrained("chatglm-6b", trust_remote_code=True) >model = model.half().quantize(quantizationBit) >print("量化完毕") >with open(f'{quantizationBit}bit.preq', 'wb') as f: > pickle.dump(model, f) >print("保存量化完毕")...

Tao2817

[BUG/Help] 在尝试运行8bit量化下的模型的时候，程序载入显存使用GPU十分缓慢；但我FP16精度加载时可以较为快速成功载入显存

[BUG/Help] 在尝试运行8bit量化下的模型的时候，程序载入显存使用GPU十分缓慢；但我FP16精度加载时可以较为快速成功载入显存

实现了保存已量化模型，大幅加快启动速度，望合并

实现了保存已量化模型，大幅加快启动速度，望合并