chatglm.cpp
chatglm.cpp copied to clipboard
可以运行llama.cpp量化后的模型吗?
在llamacpp上使用GPU运行,GPU利用率比chatglmcpp低,想用chatglmcpp运行llama模型
llama.cpp and chatglm.cpp share a same interface package called ggml. Maybe you should check the quantization parameter and CUDA configuration.