chatglm.cpp icon indicating copy to clipboard operation
chatglm.cpp copied to clipboard

试了一下量化8位和4位没有明显感觉到速度差距

Open liaoweiguo opened this issue 2 years ago • 1 comments

13900KF 精度不太好说,没有测试

liaoweiguo avatar Jul 04 '23 06:07 liaoweiguo

可以加上-v参数,测试下每个token所需要的耗时,参考 #31 ,CPU上使用int4相比int8应该会有明显加速。

li-plus avatar Jul 13 '23 14:07 li-plus