Integrated-Design-Diffusion-Model icon indicating copy to clipboard operation
Integrated-Design-Diffusion-Model copied to clipboard

无法生成大尺寸的图像

Open danielkongcau-del opened this issue 4 months ago • 3 comments

大佬好!我在使用模型生成图像的时候发现它只能生成64*64的图像。我试着在generate.py中修改了image_size的默认值为256,但是它仍然会生成64的图像。请问我该如何解决这个问题呢?

danielkongcau-del avatar Oct 27 '25 15:10 danielkongcau-del

现在阶段的版本不推荐使用修改image_size生成大尺寸图像,建议开启--latent,加载autoencoder和diffusion模型权重进行大尺寸生成。 具体训练办法请参考:https://github.com/chairc/Integrated-Design-Diffusion-Model/blob/main/docs/zh-Hans/02_%E8%AE%AD%E7%BB%83.md

Image

chairc avatar Oct 28 '25 00:10 chairc

谢谢大佬回复!我还有个问题想请教一下。如果我想生成效果比较好的大尺寸图像(比如256*256),那么我在模型训练的时候就得用大尺寸图像进行训练吗?我试着使用更大的图像进行训练,同时改train.py中的image_size从64变为128,256等,发现单张4090显存完全不够。查看过去的Issues看到你曾提到群里有人用10张3090跑了80多个小时的256×256训练,但是我同时租用4张48GB显存的GPU开启分布式训练似乎无法集中多张显卡的显存,该报OOM还是报了OOM。请问是我哪里设置的不对吗?

danielkongcau-del avatar Oct 30 '25 16:10 danielkongcau-del

是是因为selfattention那个模块吃显存,你可以参考一下unet_slim.py代码。关于大尺寸训练,建议加载latent训练权重训练64*64。如果直接训练256不启用latent,建议调小batch size与num worker,启用amp,切换unet_slim模型。

chairc avatar Oct 31 '25 00:10 chairc