chatglm_finetuning LoRA做infer的时候用int4之后，模型性能会大幅度下降

LoRA做infer的时候用int4之后，模型性能会大幅度下降

Open JamesQFreeman opened this issue 1 year ago • 1 comments

重参数化是自己写的，想知道有人LoRA+int4成功的吗？

Mar 31 '23 17:03 JamesQFreeman

重参数化是自己写的，想知道有人LoRA+int4成功的吗？

原版官方的ChatGLM也是这样啊，int4和int8都比float16推理慢很多。很想知道怎么解决。

May 08 '23 07:05 geolvr