hht2001

MT Lab, Meitu ShenZhen

Results 27 comments of


                                            hht2001

关于加速后生成图像质量变差的问题

> > 有损的，可能导致模糊的问题，请去掉下面这些参数关掉 > > 非常感谢，deepcache是使用了int8推理吗 deepcache会跳步

windows下跑的很慢，但跑起来了，记录一下安装过程

SDXL_CLIP2_CKPT_PTH = './models/open_clip_pytorch_model.bin' 根本就是无用的，，他们根本没有用到vit的任何参数来加载controlnet 不知道为什么他们要在论文里说用到vit并在加载函数里面加上这个。。实际没有起到任何作用

windows下跑的很慢，但跑起来了，记录一下安装过程

> You guys can't use ComfyUI-SUPIR? 那里面太多实现错误了

> 我用的参数是 python -u inference.py --version v2 --task sr --upscale 2 --cfg_scale 4.0 --input inputs/wkkimg --output results/wkkimg --device cuda > > 顺便再问一下，芯片图里的字能完美清晰化，是不是说这个方法能放大文字了？ sd没法生成文字的原因在于vae的八倍下采样，所以小文字没法生成，但是大文字一直是可以的。图里的文字是因为文字本身够大

使用更大规模的数据训练，会有更好的效果吗？

> > 你好，SUPIR我不是很了解，你可以询问SUPIR的作者来获取准确的回答~。关于DiffBIR，我们昨天更新了一版模型，训练数据用的是过滤（比较粗糙）之后的laion2b-en的子集，总共1500w张高清图片，但是效果没有SUPIR那么明显的提升，我觉得原因可能是：1）SD v2.1的生成能力有限 2）数据集不完整，存在bias，后续需要再仔细调整一下。 > > 你好，我想问下这1500w张高清图片时如何使用的呢，加入原图的尺寸比较大，假设是6000*4000，那么是将全图reszie之后，再crop成512的分辨率吗，还是说，全图的尺寸不做缩放，直接在其中随机crop出来512分辨率的小块进行训练呢？看论文是crop 512，感觉他们的数据集尺寸不会太大，所以没有crop之后无实际语义的情况。我这边在1.5上训练了他们的zerosft和zero cross attn，相比于普通的controlnet还是有很大提升的

使用更大规模的数据训练，会有更好的效果吗？

> 还有个疑问是，网络上的高清数据，如果是单反相机拍摄的话，就会存在很多背景虚化的图像，这种图像，是不是也不应该包含在训练集中，会影响到模型的学习你可以自己实验一下，我是用diffusers复现然后8*a100自训的sd1.5版本supir。数据集大概30m左右，很多单反的背景模糊图像。初期在1.5w次iter之前是会有部分部位模糊的现象，但是到1.5w之后整个模型就收敛了，不会出现局部模糊的情况贴一个效果图 ![1](https://github.com/XPixelGroup/DiffBIR/assets/61224076/aae5112f-b9c8-40d6-8fff-f07d1d126552) ![elephant_input](https://github.com/XPixelGroup/DiffBIR/assets/61224076/1bd848dc-79e2-4edb-b625-9684492f27cc)

使用更大规模的数据训练，会有更好的效果吗？

> > > 还有个疑问是，网络上的高清数据，如果是单反相机拍摄的话，就会存在很多背景虚化的图像，这种图像，是不是也不应该包含在训练集中，会影响到模型的学习 > > > > > > 你可以自己实验一下，我是用diffusers复现然后8*a100自训的sd1.5版本supir。数据集大概30m左右，很多单反的背景模糊图像。初期在1.5w次iter之前是会有部分部位模糊的现象，但是到1.5w之后整个模型就收敛了，不会出现局部模糊的情况 > > 贴一个效果图 ![1](https://private-user-images.githubusercontent.com/61224076/326318039-aae5112f-b9c8-40d6-8fff-f07d1d126552.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTQzNTg2MzMsIm5iZiI6MTcxNDM1ODMzMywicGF0aCI6Ii82MTIyNDA3Ni8zMjYzMTgwMzktYWFlNTExMmYtYjljOC00MGQ2LThmZmYtZjA3ZDFkMTI2NTUyLmpwZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MjklMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDI5VDAyMzg1M1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTA5ZWFjNTI1MTAwZjRkYWJkMjliOTBhY2FiZDBkNTNlOGViNGNkMjhlZmNkNWU5M2NkYWE2YTI3NWFiZjcwNTImWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.IDi9Wrus8rmFU4O8G1NLbpAqEHq5th9PS6eM5V2aL70) > > ![elephant_input](https://private-user-images.githubusercontent.com/61224076/326318239-1bd848dc-79e2-4edb-b625-9684492f27cc.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTQzNTg2MzMsIm5iZiI6MTcxNDM1ODMzMywicGF0aCI6Ii82MTIyNDA3Ni8zMjYzMTgyMzktMWJkODQ4ZGMtNzllMi00ZWRiLWI2MjUtOTY4NDQ5MmYyN2NjLmpwZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MjklMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDI5VDAyMzg1M1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTA5MWYxNWY2YzhlYWVkZGRjNGJlYTg0NTc5MDRiZTAyZGNkMzRhZjA3NDlmMmExMjgyOWYyZmI5NWI1OWM4NjYmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.c8Gr31C0lA-btcRdn9msMuUFT1sghT8-pOrZqLXNRyM) > > 你也是从原始图像中，随机裁剪出512的区域训练吗，基本能保证每次裁剪都包含图像的主体部分对吗？我是剔除掉0.5

使用更大规模的数据训练，会有更好的效果吗？

> > > > > 还有个疑问是，网络上的高清数据，如果是单反相机拍摄的话，就会存在很多背景虚化的图像，这种图像，是不是也不应该包含在训练集中，会影响到模型的学习 > > > > > > > > > > > > 你可以自己实验一下，我是用diffusers复现然后8*a100自训的sd1.5版本supir。数据集大概30m左右，很多单反的背景模糊图像。初期在1.5w次iter之前是会有部分部位模糊的现象，但是到1.5w之后整个模型就收敛了，不会出现局部模糊的情况 > > > > 你也是从原始图像中，随机裁剪出512的区域训练吗，基本能保证每次裁剪都包含图像的主体部分对吗？ > > > > > >...

使用更大规模的数据训练，会有更好的效果吗？

> 限制在1024之下了，如果输入1024的图做修复，效果会打折 supir也是512训练的，只是original_size指定为1024来作为额外的embedding，而我们公司有我们自己的技术可以512训练1024生成

[Bug] libcudnn_cnn_train.so.8: undefined symbol: _ZTIN10cask_cudnn14BaseKernelInfoE

这不是bug，这是你的环境问题