CogVideo
CogVideo copied to clipboard
finetune使用的loss和论文中陈述的似乎不一样?
finetune时并不是用预测noise算loss的(原文中公式(1)),而是denoise后的latent, 这是为什么? https://github.com/THUDM/CogVideo/blob/5ab1e2449ffc8887ffad3ca3b9efd22ad7e356f7/finetune/models/cogvideox_t2v/lora_trainer.py#L173
我也很好奇,他lora finetune时候用get_velocity算得v,然后拿v跟clear latent求mse是个什么操作?