hht2001

Results 27 comments of hht2001

> > 有损的,可能导致模糊的问题,请去掉下面这些参数关掉 > > 非常感谢,deepcache是使用了int8推理吗 deepcache会跳步

SDXL_CLIP2_CKPT_PTH = './models/open_clip_pytorch_model.bin' 根本就是无用的,,他们根本没有用到vit的任何参数来加载controlnet 不知道为什么他们要在论文里说用到vit并在加载函数里面加上这个。。实际没有起到任何作用

> You guys can't use ComfyUI-SUPIR? 那里面太多实现错误了

> 我用的参数是 python -u inference.py --version v2 --task sr --upscale 2 --cfg_scale 4.0 --input inputs/wkkimg --output results/wkkimg --device cuda > > 顺便再问一下,芯片图里的字能完美清晰化,是不是说这个方法能放大文字了? sd没法生成文字的原因在于vae的八倍下采样,所以小文字没法生成,但是大文字一直是可以的。图里的文字是因为文字本身够大

> > 你好,SUPIR我不是很了解,你可以询问SUPIR的作者来获取准确的回答~。关于DiffBIR,我们昨天更新了一版模型,训练数据用的是过滤(比较粗糙)之后的laion2b-en的子集,总共1500w张高清图片,但是效果没有SUPIR那么明显的提升,我觉得原因可能是:1)SD v2.1的生成能力有限 2)数据集不完整,存在bias,后续需要再仔细调整一下。 > > 你好,我想问下这1500w张高清图片时如何使用的呢,加入原图的尺寸比较大,假设是6000*4000,那么是将全图reszie之后,再crop成512的分辨率吗,还是说,全图的尺寸不做缩放,直接在其中随机crop出来512分辨率的小块进行训练呢? 看论文是crop 512,感觉他们的数据集尺寸不会太大,所以没有crop之后无实际语义的情况。 我这边在1.5上训练了他们的zerosft和zero cross attn,相比于普通的controlnet还是有很大提升的

> 还有个疑问是,网络上的高清数据,如果是单反相机拍摄的话,就会存在很多背景虚化的图像,这种图像,是不是也不应该包含在训练集中,会影响到模型的学习 你可以自己实验一下,我是用diffusers复现然后8*a100自训的sd1.5版本supir。数据集大概30m左右,很多单反的背景模糊图像。初期在1.5w次iter之前是会有部分部位模糊的现象,但是到1.5w之后整个模型就收敛了,不会出现局部模糊的情况 贴一个效果图 ![1](https://github.com/XPixelGroup/DiffBIR/assets/61224076/aae5112f-b9c8-40d6-8fff-f07d1d126552) ![elephant_input](https://github.com/XPixelGroup/DiffBIR/assets/61224076/1bd848dc-79e2-4edb-b625-9684492f27cc)

> > > 还有个疑问是,网络上的高清数据,如果是单反相机拍摄的话,就会存在很多背景虚化的图像,这种图像,是不是也不应该包含在训练集中,会影响到模型的学习 > > > > > > 你可以自己实验一下,我是用diffusers复现然后8*a100自训的sd1.5版本supir。数据集大概30m左右,很多单反的背景模糊图像。初期在1.5w次iter之前是会有部分部位模糊的现象,但是到1.5w之后整个模型就收敛了,不会出现局部模糊的情况 > > 贴一个效果图 ![1](https://private-user-images.githubusercontent.com/61224076/326318039-aae5112f-b9c8-40d6-8fff-f07d1d126552.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTQzNTg2MzMsIm5iZiI6MTcxNDM1ODMzMywicGF0aCI6Ii82MTIyNDA3Ni8zMjYzMTgwMzktYWFlNTExMmYtYjljOC00MGQ2LThmZmYtZjA3ZDFkMTI2NTUyLmpwZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MjklMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDI5VDAyMzg1M1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTA5ZWFjNTI1MTAwZjRkYWJkMjliOTBhY2FiZDBkNTNlOGViNGNkMjhlZmNkNWU5M2NkYWE2YTI3NWFiZjcwNTImWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.IDi9Wrus8rmFU4O8G1NLbpAqEHq5th9PS6eM5V2aL70) > > ![elephant_input](https://private-user-images.githubusercontent.com/61224076/326318239-1bd848dc-79e2-4edb-b625-9684492f27cc.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTQzNTg2MzMsIm5iZiI6MTcxNDM1ODMzMywicGF0aCI6Ii82MTIyNDA3Ni8zMjYzMTgyMzktMWJkODQ4ZGMtNzllMi00ZWRiLWI2MjUtOTY4NDQ5MmYyN2NjLmpwZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MjklMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDI5VDAyMzg1M1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTA5MWYxNWY2YzhlYWVkZGRjNGJlYTg0NTc5MDRiZTAyZGNkMzRhZjA3NDlmMmExMjgyOWYyZmI5NWI1OWM4NjYmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.c8Gr31C0lA-btcRdn9msMuUFT1sghT8-pOrZqLXNRyM) > > 你也是从原始图像中,随机裁剪出512的区域训练吗,基本能保证每次裁剪都包含图像的主体部分对吗? 我是剔除掉0.5

> > > > > 还有个疑问是,网络上的高清数据,如果是单反相机拍摄的话,就会存在很多背景虚化的图像,这种图像,是不是也不应该包含在训练集中,会影响到模型的学习 > > > > > > > > > > > > 你可以自己实验一下,我是用diffusers复现然后8*a100自训的sd1.5版本supir。数据集大概30m左右,很多单反的背景模糊图像。初期在1.5w次iter之前是会有部分部位模糊的现象,但是到1.5w之后整个模型就收敛了,不会出现局部模糊的情况 > > > > 你也是从原始图像中,随机裁剪出512的区域训练吗,基本能保证每次裁剪都包含图像的主体部分对吗? > > > > > >...

> 限制在1024之下了,如果输入1024的图做修复,效果会打折 supir也是512训练的,只是original_size指定为1024来作为额外的embedding,而我们公司有我们自己的技术可以512训练1024生成