chatglm.cpp 显存使用增加

显存使用增加

Open Htring opened this issue 1 year ago • 0 comments

将基于lora训练后的模型量化后，使用Python Binding的方式将模型封装部署，随着请求数量（数据量万级）的增加，GPU显存为不断增加，有什么好的方式释放显存呢？

Dec 21 '23 07:12 Htring