为什么要采用Reference Image的信息用Spatial-Attention和Cross-Attention编码到Pose Sequence的Denoising UNet里面的方法而不是反过来

Open hxypqr opened this issue 2 years ago • 1 comments

有什么数学解释说明采用Reference Image的信息用Spatial-Attention和Cross-Attention编码到Pose Sequence的Denoising UNet里面的方法比反过来更有优势吗

Dec 18 '23 13:12 hxypqr

没有什么数学原理吧就是效果更好现在没办法很好地从数学上解释

Mar 06 '24 05:03 fenghe12