dyeeee
Results
2
comments of
dyeeee
> QLoRA也可以采用您修改后的这种方式,单进程启动(finetune_qlora_single_gpu.sh),去掉--deepspeed参数,但环境变量设置为多卡,使用原始的模型并行进行训练,如果您能接受这个效率的话(同时只有一张卡运行)。可以试试看。 > > 现在提供的脚本都属于数据并行的方式,显存需求不是直接能分到各张卡上的。对于72B-Chat-Int4 QLoRA,因为QLoRA没法用ZeRO-3这种FSDP类似技术,每张卡都得至少能放下整个模型,模型参数文件就已经39GB多了,24GB肯定放不下的。 请问Readme中提到的,72B qlora 微调显存占用64GB,是应该微调int4模型还是微调完整模型设置量化参数呢?4*48G 两种方式都OOM