chatglm.cpp
chatglm.cpp copied to clipboard

Published 20 hours ago •

Reame
Issues

试了一下量化8位和4位没有明显感觉到速度差距

Open liaoweiguo opened this issue 2 years ago • 1 comments

13900KF 精度不太好说，没有测试

Jul 04 '23 06:07 liaoweiguo

可以加上-v参数，测试下每个token所需要的耗时，参考 #31 ，CPU上使用int4相比int8应该会有明显加速。

Jul 13 '23 14:07 li-plus