DCLS-SR icon indicating copy to clipboard operation
DCLS-SR copied to clipboard

sos

Open fenghao195 opened this issue 2 years ago • 7 comments

您好,按照setting1中设置训练50,0000。在每隔2000个迭代会进行一次验证,这些验证保存的结果让我满脸问号???以set5中的‘baby’为例,下面是每次验证保存的结果分别是lr,2000iter,4000iter,6000iter,8000iter,10000iter。10000iter后的图片和10000iter结果差不多,都是黑屏: 原始lr: sig1 8_baby_LR 2000iter: sig1 8_baby_2000 4000iter: sig1 8_baby_4000 6000iter: sig1 8_baby_6000 8000iter: sig1 8_baby_8000 10000iter: sig1 8_baby_10000 后面从第10000iter到20,0000的结果都是全黑图片。这是在第8000iter后过拟合了吗。第4000iter和6000iter结果也很离谱。求救,您认为为什么会这样

fenghao195 avatar Jul 11 '22 12:07 fenghao195

验证集的PSNR是正常的吗? 在多进程的情况下图像可能会互相覆盖,建议单独写一个保存图像的方法。或者保存模型后单独运行test文件进行测试。

这里是我在blind_model.py中添加的图像保存代码:

    import torchvision.utils as tvutils
    ...
    ...
    def optimize_parameters(self, step):
        #optimization codes 
        ...
        balabala 
        ...

        # save tmp images
        name = 'tmp_images'
        os.makedirs(name, exist_ok=True)
        if step % 100 == 0 and self.rank == 0:
            tvutils.save_image(self.var_L.data, f'{name}/lr.png', normalize=True)
            tvutils.save_image(sr.data, f'{name}/sr.png', normalize=True)
            tvutils.save_image(self.real_H.data, f'{name}/hr.png', normalize=True)

Algolzw avatar Jul 11 '22 13:07 Algolzw

第2000,8000的psnr结果挺正常,4000,6000,基本上psnr都=7。。。。 image

fenghao195 avatar Jul 11 '22 13:07 fenghao195

这结果好诡异啊。。。

fenghao195 avatar Jul 11 '22 13:07 fenghao195

那应该是程序训练不稳定崩掉了,一般这种最好kill掉再从上一次PSNR正常的模型接着训练,或者可以修改learning rate等重新训。 这应该是程序本身有些问题,我们目前也还没有找到真正的原因,具体的可以参考这里这里

Algolzw avatar Jul 11 '22 13:07 Algolzw

image 您好,注意到warmup_iter=-1,您是不想更新学习率吗。综合我上面描述的情况,会不会因为学习率太大,跳出最优了呢

fenghao195 avatar Jul 11 '22 14:07 fenghao195

学习率是通过lr_steps来递减的,每200k和400k次迭代时乘以0.5。使用小学习率训或许会稍微好一些。

Algolzw avatar Jul 11 '22 14:07 Algolzw

您好,按照setting1中设置训练50,0000。在每隔2000个迭代会进行一次验证,这些验证保存的结果让我满脸问号???以set5中的‘baby’为例,下面是每次验证保存的结果分别是lr,2000iter,4000iter,6000iter,8000iter,10000iter。10000iter后的图片和10000iter结果差不多,都是黑屏: 原始lr: sig1 8_baby_LR 2000iter: sig1 8_baby_2000 4000iter: sig1 8_baby_4000 6000iter: sig1 8_baby_6000 8000iter: sig1 8_baby_8000 10000iter: sig1 8_baby_10000 后面从第10000iter到20,0000的结果都是全黑图片。这是在第8000iter后过拟合了吗。第4000iter和6000iter结果也很离谱。求救,您认为为什么会这样

我也遇到类似的问题了,兄弟你是怎么解决的,我也是psnr崩掉,图片有时候黑色红色这样。。

yxzhe-star avatar Oct 16 '23 08:10 yxzhe-star