hht2001
hht2001
> > 有损的,可能导致模糊的问题,请去掉下面这些参数关掉 > > 非常感谢,deepcache是使用了int8推理吗 deepcache会跳步
SDXL_CLIP2_CKPT_PTH = './models/open_clip_pytorch_model.bin' 根本就是无用的,,他们根本没有用到vit的任何参数来加载controlnet 不知道为什么他们要在论文里说用到vit并在加载函数里面加上这个。。实际没有起到任何作用
> You guys can't use ComfyUI-SUPIR? 那里面太多实现错误了
> 我用的参数是 python -u inference.py --version v2 --task sr --upscale 2 --cfg_scale 4.0 --input inputs/wkkimg --output results/wkkimg --device cuda > > 顺便再问一下,芯片图里的字能完美清晰化,是不是说这个方法能放大文字了? sd没法生成文字的原因在于vae的八倍下采样,所以小文字没法生成,但是大文字一直是可以的。图里的文字是因为文字本身够大
> > 你好,SUPIR我不是很了解,你可以询问SUPIR的作者来获取准确的回答~。关于DiffBIR,我们昨天更新了一版模型,训练数据用的是过滤(比较粗糙)之后的laion2b-en的子集,总共1500w张高清图片,但是效果没有SUPIR那么明显的提升,我觉得原因可能是:1)SD v2.1的生成能力有限 2)数据集不完整,存在bias,后续需要再仔细调整一下。 > > 你好,我想问下这1500w张高清图片时如何使用的呢,加入原图的尺寸比较大,假设是6000*4000,那么是将全图reszie之后,再crop成512的分辨率吗,还是说,全图的尺寸不做缩放,直接在其中随机crop出来512分辨率的小块进行训练呢? 看论文是crop 512,感觉他们的数据集尺寸不会太大,所以没有crop之后无实际语义的情况。 我这边在1.5上训练了他们的zerosft和zero cross attn,相比于普通的controlnet还是有很大提升的
> 还有个疑问是,网络上的高清数据,如果是单反相机拍摄的话,就会存在很多背景虚化的图像,这种图像,是不是也不应该包含在训练集中,会影响到模型的学习 你可以自己实验一下,我是用diffusers复现然后8*a100自训的sd1.5版本supir。数据集大概30m左右,很多单反的背景模糊图像。初期在1.5w次iter之前是会有部分部位模糊的现象,但是到1.5w之后整个模型就收敛了,不会出现局部模糊的情况 贴一个效果图  
> > > 还有个疑问是,网络上的高清数据,如果是单反相机拍摄的话,就会存在很多背景虚化的图像,这种图像,是不是也不应该包含在训练集中,会影响到模型的学习 > > > > > > 你可以自己实验一下,我是用diffusers复现然后8*a100自训的sd1.5版本supir。数据集大概30m左右,很多单反的背景模糊图像。初期在1.5w次iter之前是会有部分部位模糊的现象,但是到1.5w之后整个模型就收敛了,不会出现局部模糊的情况 > > 贴一个效果图  > >  > > 你也是从原始图像中,随机裁剪出512的区域训练吗,基本能保证每次裁剪都包含图像的主体部分对吗? 我是剔除掉0.5
> > > > > 还有个疑问是,网络上的高清数据,如果是单反相机拍摄的话,就会存在很多背景虚化的图像,这种图像,是不是也不应该包含在训练集中,会影响到模型的学习 > > > > > > > > > > > > 你可以自己实验一下,我是用diffusers复现然后8*a100自训的sd1.5版本supir。数据集大概30m左右,很多单反的背景模糊图像。初期在1.5w次iter之前是会有部分部位模糊的现象,但是到1.5w之后整个模型就收敛了,不会出现局部模糊的情况 > > > > 你也是从原始图像中,随机裁剪出512的区域训练吗,基本能保证每次裁剪都包含图像的主体部分对吗? > > > > > >...
> 限制在1024之下了,如果输入1024的图做修复,效果会打折 supir也是512训练的,只是original_size指定为1024来作为额外的embedding,而我们公司有我们自己的技术可以512训练1024生成