AnimateAnyone
AnimateAnyone copied to clipboard
为什么要采用Reference Image的信息用Spatial-Attention和Cross-Attention编码到Pose Sequence的Denoising UNet里面的方法而不是反过来
有什么数学解释说明采用Reference Image的信息用Spatial-Attention和Cross-Attention编码到Pose Sequence的Denoising UNet里面的方法比反过来更有优势吗
没有什么数学原理吧 就是效果更好 现在没办法很好地从数学上解释