chatglm_finetuning
chatglm_finetuning copied to clipboard
LoRA做infer的时候用int4之后,模型性能会大幅度下降
重参数化是自己写的,想知道有人LoRA+int4成功的吗?
重参数化是自己写的,想知道有人LoRA+int4成功的吗?
原版官方的ChatGLM也是这样啊,int4和int8都比float16推理慢很多。很想知道怎么解决。