DiffSynth-Studio qwen-image-edit lora训练是否有显存优化手段

使用单机8卡49GA6000，按照repo中的lora去训练，已经启动了 --use_gradient_checkpointing --use_gradient_checkpointing_offload --enable_fp8_training，降低了lora_rank，zero_stage2/3都试过，全都在accelerator.prepare步骤爆显存 求各位指导：

是否是deepspeed配置没起作用？配置方式见下图（--config_file）
是否有其他方法能够优化显存？

Oct 05 '25 11:10 pljj315

@pljj315 49G 显存不足以训练这个模型，如果想要强心训练，可根据这个脚本进行修改：

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/qwen_image/model_training/lora/Qwen-Image-Splited.sh

这个功能还在开发中，未来可能有大幅度改变

Oct 10 '25 06:10 Artiprocher

这个脚本是？

Oct 15 '25 08:10 XIONGPEILIN

--lora_target_modules "to_q,to_k,to_v,add_q_proj,add_k_proj,add_v_proj,to_out.0,to_add_out,img_mlp.net.2,img_mod.1,txt_mlp.net.2,txt_mod.1"
--lora_rank 32
--use_gradient_checkpointing
--dataset_num_workers 8
--find_unused_parameters
--enable_fp8_training

我不适用deepspeed在48G显存上按照这个参数是可以训练的

Oct 23 '25 06:10 yangguoquan001

--lora_target_modules "to_q,to_k,to_v,add_q_proj,add_k_proj,add_v_proj,to_out.0,to_add_out,img_mlp.net.2,img_mod.1,txt_mlp.net.2,txt_mod.1" --lora_rank 32 --use_gradient_checkpointing --dataset_num_workers 8 --find_unused_parameters --enable_fp8_training

我不适用deepspeed在48G显存上按照这个参数是可以训练的

请问您每张卡上是多少显存呢？我在8张45G的A40上lora训练Qwen-Image-Edit-2509会爆显存。十分感谢！

Nov 28 '25 09:11 popoyaya

qwen-image-edit lora训练 是否有显存优化手段

qwen-image-edit lora训练是否有显存优化手段