ChatGLM-Efficient-Tuning
ChatGLM-Efficient-Tuning copied to clipboard
chatglm V2模型量化为int8后推理速度慢一倍左右,fp16每秒 35字符,int8每秒17字符
量化模型推理速度会变慢,是正常现象。
量化模型推理速度会变慢,是正常现象。
好的谢谢,发现了