chatglm.cpp icon indicating copy to clipboard operation
chatglm.cpp copied to clipboard

显存使用增加

Open Htring opened this issue 1 year ago • 0 comments

将基于lora训练后的模型量化后,使用Python Binding的方式将模型封装部署,随着请求数量(数据量万级)的增加,GPU显存为不断增加,有什么好的方式释放显存呢?

Htring avatar Dec 21 '23 07:12 Htring