ChatGLM-Efficient-Tuning icon indicating copy to clipboard operation
ChatGLM-Efficient-Tuning copied to clipboard

chatglm V2模型量化为int8后推理速度慢一倍左右,fp16每秒 35字符,int8每秒17字符

Open zzzhaoguziji opened this issue 1 year ago • 2 comments

zzzhaoguziji avatar Jun 30 '23 02:06 zzzhaoguziji

量化模型推理速度会变慢,是正常现象。

hiyouga avatar Jun 30 '23 03:06 hiyouga

量化模型推理速度会变慢,是正常现象。

好的谢谢,发现了

zzzhaoguziji avatar Jun 30 '23 03:06 zzzhaoguziji