ChatGLM-Tuning
ChatGLM-Tuning copied to clipboard
ChatGLM LoRA微调之后,量化quantize=8显存、推理耗时都反向增加
不使用量化的推理显存占用14GB,使用量化8之后显存占用20GB,量化4则占用17GB,请问是什么原因导致? 显卡是A100 80G
torch.cuda.empty_cache试试