papa
Results
2
comments of
papa
> 3D full attention就是对整个序列做attention,时空分离的attention是指同一帧内部(空间)做attention或所有帧同一个位置(时间)做attention 请问是这里吗,在padding_embedding这边
> 你可以进行调试,假设tensor shape是(b,f,h,w)。之前的工作通常(b * f,h * w)进行spatial attention ,(b * h * w,f)进行temporal attentio。而在cogvideox是(b,f * h * w)的3d full attention。以10 * 480 * 720为例,他的attention map是(2,48,3* 30* 45+226,3* 30* 45+226),其中2是batch,48是head,3是进过3dvae缩减的frame个数,30和45是attention map长宽,226是text...