chatglm.cpp
chatglm.cpp copied to clipboard
能否降低量化的内存使用?
使用Baichuan2-13B模型,convert需要几十G内存,在16G内存的Mac上无法完成运行,进程会OOM被系统kill掉。 而llama.cpp的convert只占很少内存就可以完成。能否使用类似llama.cpp的方法做量化?
我也遇到这个问题,好象分批处理数据就能实现,但我又不会。