wang yilan

Results 26 comments of wang yilan

I found that in the paper, the resolution of imagenet data is set to 512x512, but as far as I know, the resolution of imagenet is 256x256. How do we...

其实我的好奇是,var成为【ar】模型的本质是因为,当预测r_k分辨率的时候,他用的是r_1,r_2,...,r_k-1. 但是如果我们也依然设计一个next scale pred,但是预测r_k只使用r_k-1,那这样就变成马尔可夫过程,也就是diffusion的底层原理了.但是作者并没有做相应的实验来证明一下这样做的效果如何, 故有此好奇

> 之前的SD也只做到了64x64的latent特征,再下采样分辨率,扩散生成效果就不好了(虽然不知道为什么),不过这篇工作看起来又可以了。降低分辨率和加噪感觉还是不一样吧,下采样更像是平滑或者模糊,图像信息还在,只是没了高频信息。另外还有个问题,[1,2,.....,16]只有固定的分辨率,如何向GPT那样运用scaling law呢? 如果不追究高斯分布的噪声等等这些"严密"的数学逻辑,感觉下采样,高斯噪声,blur compression这些其实都差不多...基本就是如何去做"无中生有".

actually I find there is little help of many losses in stage2 & s3. anyway this is a good work.

补充:tinynn版本为:0.1.0.20250312212905+c9d0ac571086212b4a62d2bacf6bfe12d92556e1

same question! may I ask that have you resolved this question?