chatglm.cpp 能否降低量化的内存使用？

能否降低量化的内存使用？

Open Quotation opened this issue 2 years ago • 1 comments

使用Baichuan2-13B模型，convert需要几十G内存，在16G内存的Mac上无法完成运行，进程会OOM被系统kill掉。而llama.cpp的convert只占很少内存就可以完成。能否使用类似llama.cpp的方法做量化？

Nov 08 '23 02:11 Quotation

我也遇到这个问题，好象分批处理数据就能实现，但我又不会。

Nov 23 '23 23:11 listenfree