bulubulu-Li comments

Results 2 comments of


                                            bulubulu-Li

现在有结论了吗

在chatglm的量化时，遇到了activation outliers问题因此chatglm-int8的做法是，只对模型参数进行量化，对activation value（可以理解为中间计算）仍然使用fp16精度这样一来，确实可以节省显存，但推理速度会降低