chatglm.cpp
chatglm.cpp copied to clipboard
试了一下量化8位和4位没有明显感觉到速度差距
13900KF 精度不太好说,没有测试
可以加上-v参数,测试下每个token所需要的耗时,参考 #31 ,CPU上使用int4相比int8应该会有明显加速。