ChatGLM-Efficient-Tuning chatglm V2模型量化为int8后推理速度慢一倍左右，fp16每秒 35字符，int8每秒17字符

chatglm V2模型量化为int8后推理速度慢一倍左右，fp16每秒 35字符，int8每秒17字符

Open zzzhaoguziji opened this issue 1 year ago • 2 comments

Jun 30 '23 02:06 zzzhaoguziji

量化模型推理速度会变慢，是正常现象。

Jun 30 '23 03:06 hiyouga

量化模型推理速度会变慢，是正常现象。

好的谢谢，发现了

Jun 30 '23 03:06 zzzhaoguziji