社区盼开源图生视频模型如久旱盼甘霖 | We really need an image2video CogVideoX!
Feature request / 功能建议
希望能看到CogVideoX的图生视频版本!!!
Motivation / 动机
社区盼开源图生视频模型如久旱盼甘霖,只生成6s短视频的文生视频模型在生产中用处比较有限,用6s短视频表达清楚创作者的意思是困难的。
只有具备图生视频能力,才能在拼接多段短视频时保持人物和场景的一致性,才能创作出长视频。从文生视频到图生视频,在技术上只是小小一步,但对创作者而言是能用和不能用的区别。
至于训练生成更长短视频的模型(比如8秒,10秒)相对而言不是那么重要,一般一个镜头时长不会超过6秒。
Your contribution / 您的贡献
您发布初始版本以后,我可以试用或者提PR改进网络结构(如果您这边愿意提供微调数据)。
比如OpenSoraPlan为了实现根据前后帧inpaint中间帧,采用了如下的方式训练I2V模型:
Your work is very helpful. The earth and the sky will praise your generosity, and countless algorithm engineers will praise you, the selfless devotee, the great architect.
I am also trying to port the train inpaint solution from the Open Sora Plan to CogVideoX. This solution is similar to EasyAnimate, but I hope the official team can provide a fine-tuning code for Diffusers, as modifying the code based on SAT is not very intuitive. The forward process involves different modules, which are all in different .py files.
期待I2V,首尾帧,视频延长,我觉得我能做出一部大片。。。。。
2B版本不是已经可以图生视频了吗,我没有本地部署,但是我有使用官方的智谱APP试用了一下,由于效果不是太理想就没再用了。难道说开源的版本不能使用图生视频功能吗,只有API才可以用吗?我不是太清楚。另外发行介绍说3060就可以用5B版本,用试过的朋友了吗,效果如何
@Maikauer
Yes, the open-source version does not support image2video at this moment. If there is an open-source strong I2V model, there will be a community finetuning it (like Stable Diffusion & LLaMA).
I also tried OpenSoraPlan 1.2 and OpenSora 1.2 for image2video. Limited by resources, their models are not as strong as CogVideoX, though they are very good developers.
我们收到了这个意见,我们会继续调研一下,感谢你们的支持
2B版本不是已经可以图生视频了吗,我没有本地部署,但是我有使用官方的智谱APP试用了一下,由于效果不是太理想就没再用了。难道说开源的版本不能使用图生视频功能吗,只有API才可以用吗?我不是太清楚。另外发行介绍说3060就可以用5B版本,用试过的朋友了吗,效果如何
图生视频并没有开源,目前只是开源了t2v,但大部分人都是需要i2v保持视频的统一性和可控性,所以文生视频显得非常鸡肋,用处不大。 目前开源社区只看到了阿里的EasyAnimate做的比较好,官方还对ComfyUI进行了支持。
非常期待清影能开源i2v。
comfyui我们很快会支持
- I2V正在支持,V2V 已经在diffuser源码中,还未发版。
- SAT lora 后挂载到diffuser版本已经完成,正在PR。
- I2V正在支持,V2V 已经在diffuser源码中,还未发版。
- SAT lora 后挂载到diffuser版本已经完成,正在PR。
Sounds great! Do you have the estimated time for releasing the I2V model?
这个PR会关闭,请关注我们的工作计划,预计9月份开源