两张参考图的情况下,这里是不是有问题? 应该有下标索引image_vae[0]么?
这块没有理解,这是在做什么 当参考图数量为2时, video_condition = 图一+图二* 4+ 零*(num_frames-5) 当参考图数量为3时,vae_repeat的情况下,video_condition = 图一+图二* 4+图三* 4+零*(num_frames-9)
图一 不用repeat么?
这里len=2的情况下,image_vae就是[image_vae[0],image_vae[1]],所以上面就是[image_vae[0]] + [image_vae[1]]*4,上下是统一的。
这里len=2的情况下,image_vae就是[image_vae[0],image_vae[1]],所以上面就是[image_vae[0]] + [image_vae[1]]*4,上下是统一的。
同样的疑问,为什么图1不repeat,是因为图1下采样一定不会丢失吗?
@rain152 @qiudi0127 @DebangLi @QingQingS @sigma-alpha-beta 我也有同样的好奇!!!!每个参考帧对应的这个乘数是怎么给的??为什么是1,4,剩下帧
第一帧在vae里面应该是会独立处理,其他帧的数量应该是对应VAE 的时序下采样因子