bulubulu-Li
Results
2
comments of
bulubulu-Li
现在有结论了吗
在chatglm的量化时,遇到了activation outliers问题 因此chatglm-int8的做法是,只对模型参数进行量化,对activation value(可以理解为中间计算)仍然使用fp16精度 这样一来,确实可以节省显存,但推理速度会降低