Wang-pengfei

Results 6 comments of Wang-pengfei

> > Hi, how can I reproduce the experimental results shown in Fig.1? I tried modifying the epoch parameter in the configs directly, but the results were significantly different. Can...

> 对于1代模型,只能生成6秒,而且,你需要在 num_frames 参数设置成8N + 1 ,对于6秒是49. 请问一下这里为什么是8N + 1,而我看之前版本的代码似乎要求是4N + 1 ,这里做了什么改进吗

> 1.0是8N + 1。比如49帧 1.5是16N +1。比如81帧 这在readme里有提到。 你提到的4N + 1应该要把模型从8N + 1压缩到潜在的。比如49帧/4 + 1 得到13的潜在形状 我想请教一下为什么需要+1。我想把cogvideo用于我的任务中,在我的任务里,我有48帧图像,他们呢代表90度的视角变动,每一帧是均匀转动的,有没有不需要+1的处理方式?

如果我强制不pad最后一帧是不可行的对吗

> * 1 是因为VAE的结构是将 8N + 1 的结构编码成 /4 + 1 后的形状。 > 按照现在代码处理的方式,你准备8N的数据集是能微调的,会pad最后一帧。变成8N + 1。这时候基本不影响微调结果。 我再请教一个问题, cogvideo的VAE可以支持更长视频的编解码吗,比如我一次性编解码48*4帧连续的覆盖360度的视频,但是训练过程中分成4组48进行Unet的训练