DiffSynth-Studio icon indicating copy to clipboard operation
DiffSynth-Studio copied to clipboard

Probs about VACE full training setting of Num_frames

Open XiaoKangW opened this issue 4 months ago • 2 comments

Hi~ 非常棒的Codebase!

想请问一下在训练Wan2.1-VACE的full版本过程中,为什么当设置num_frames 大于 49的时候,生成的结果会是错误的?看VACE的官方版本是支持frames=81的.

当前模型是否是由于VACE的基模导致只能训练小于81的帧数视频呢,有其他基础模型可以生成长视频的吗?

Thanks!

XiaoKangW avatar Oct 18 '25 10:10 XiaoKangW

@XiaoKangW 我们在训练脚本中设置为 49 帧是为了减少显存占用,模型本身支持任意 4n+1 的帧数。如果您有更大的显存,可自行提高帧数。如果遇到生成结果的问题,请提供代码和生成结果样例,以便我们排查问题。

Artiprocher avatar Oct 20 '25 02:10 Artiprocher

你好!很高兴收到您的回复!这是我训练的代码和结果:

accelerate launch ../train.py
--dataset_base_path /data2/xiaokang/datatset/style_transfer
--dataset_metadata_path /data2/xiaokang/datatset/style_transfer/metadata_vace_train_5k.csv
--data_file_keys "video,vace_video,vace_reference_image"
--height 480
--width 832
--num_frames 81
--dataset_repeat 1
--model_id_with_origin_paths "Wan-AI/Wan2.1-VACE-1.3B:diffusion_pytorch_model*.safetensors,Wan-AI/Wan2.1-VACE-1.3B:models_t5_umt5-xxl-enc-bf16.pth,Wan-AI/Wan2.1-VACE-1.3B:Wan2.1_VAE.pth"
--learning_rate 1e-4
--num_epochs 3
--remove_prefix_in_ckpt "pipe.vace."
--output_path "./models/train_data2/Wan2.1-VACE-1.3B_full_frames81_dataRepeat4"
--trainable_models "vace"
--extra_inputs "vace_video,vace_reference_image"
--use_gradient_checkpointing_offload

https://github.com/user-attachments/assets/feff5e70-d820-4467-924e-1a38835e2a60

XiaoKangW avatar Oct 20 '25 08:10 XiaoKangW