bulubulu-Li

Results 2 comments of bulubulu-Li

在chatglm的量化时,遇到了activation outliers问题 因此chatglm-int8的做法是,只对模型参数进行量化,对activation value(可以理解为中间计算)仍然使用fp16精度 这样一来,确实可以节省显存,但推理速度会降低