qwen-image-edit lora训练 是否有显存优化手段
使用单机8卡49GA6000,按照repo中的lora去训练,已经启动了 --use_gradient_checkpointing --use_gradient_checkpointing_offload --enable_fp8_training,降低了lora_rank,zero_stage2/3都试过,全都在accelerator.prepare步骤爆显存 求各位指导:
- 是否是deepspeed配置没起作用?配置方式见下图(--config_file)
- 是否有其他方法能够优化显存?
@pljj315 49G 显存不足以训练这个模型,如果想要强心训练,可根据这个脚本进行修改:
https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/qwen_image/model_training/lora/Qwen-Image-Splited.sh
这个功能还在开发中,未来可能有大幅度改变
这个脚本是?
--lora_target_modules "to_q,to_k,to_v,add_q_proj,add_k_proj,add_v_proj,to_out.0,to_add_out,img_mlp.net.2,img_mod.1,txt_mlp.net.2,txt_mod.1"
--lora_rank 32
--use_gradient_checkpointing
--dataset_num_workers 8
--find_unused_parameters
--enable_fp8_training
我不适用deepspeed在48G显存上按照这个参数是可以训练的
--lora_target_modules "to_q,to_k,to_v,add_q_proj,add_k_proj,add_v_proj,to_out.0,to_add_out,img_mlp.net.2,img_mod.1,txt_mlp.net.2,txt_mod.1" --lora_rank 32 --use_gradient_checkpointing --dataset_num_workers 8 --find_unused_parameters --enable_fp8_training
我不适用deepspeed在48G显存上按照这个参数是可以训练的
请问您每张卡上是多少显存呢?我在8张45G的A40上lora训练Qwen-Image-Edit-2509会爆显存。十分感谢!