chatglm.cpp icon indicating copy to clipboard operation
chatglm.cpp copied to clipboard

能否降低量化的内存使用?

Open Quotation opened this issue 2 years ago • 1 comments

使用Baichuan2-13B模型,convert需要几十G内存,在16G内存的Mac上无法完成运行,进程会OOM被系统kill掉。 而llama.cpp的convert只占很少内存就可以完成。能否使用类似llama.cpp的方法做量化?

Quotation avatar Nov 08 '23 02:11 Quotation

我也遇到这个问题,好象分批处理数据就能实现,但我又不会。

listenfree avatar Nov 23 '23 23:11 listenfree