Integrated-Design-Diffusion-Model 无法生成大尺寸的图像

大佬好！我在使用模型生成图像的时候发现它只能生成64*64的图像。我试着在generate.py中修改了image_size的默认值为256，但是它仍然会生成64的图像。请问我该如何解决这个问题呢？

Oct 27 '25 15:10 danielkongcau-del

现在阶段的版本不推荐使用修改image_size生成大尺寸图像，建议开启--latent，加载autoencoder和diffusion模型权重进行大尺寸生成。具体训练办法请参考：https://github.com/chairc/Integrated-Design-Diffusion-Model/blob/main/docs/zh-Hans/02_%E8%AE%AD%E7%BB%83.md

Oct 28 '25 00:10 chairc

谢谢大佬回复！我还有个问题想请教一下。如果我想生成效果比较好的大尺寸图像（比如256*256），那么我在模型训练的时候就得用大尺寸图像进行训练吗？我试着使用更大的图像进行训练，同时改train.py中的image_size从64变为128，256等，发现单张4090显存完全不够。查看过去的Issues看到你曾提到群里有人用10张3090跑了80多个小时的256×256训练，但是我同时租用4张48GB显存的GPU开启分布式训练似乎无法集中多张显卡的显存，该报OOM还是报了OOM。请问是我哪里设置的不对吗？

Oct 30 '25 16:10 danielkongcau-del

是是因为selfattention那个模块吃显存，你可以参考一下unet_slim.py代码。关于大尺寸训练，建议加载latent训练权重训练64*64。如果直接训练256不启用latent，建议调小batch size与num worker，启用amp，切换unet_slim模型。

Oct 31 '25 00:10 chairc