chatglm_finetuning icon indicating copy to clipboard operation
chatglm_finetuning copied to clipboard

LoRA做infer的时候用int4之后,模型性能会大幅度下降

Open JamesQFreeman opened this issue 1 year ago • 1 comments

重参数化是自己写的,想知道有人LoRA+int4成功的吗?

JamesQFreeman avatar Mar 31 '23 17:03 JamesQFreeman

重参数化是自己写的,想知道有人LoRA+int4成功的吗?

原版官方的ChatGLM也是这样啊,int4和int8都比float16推理慢很多。很想知道怎么解决。

geolvr avatar May 08 '23 07:05 geolvr