oblessnoob
oblessnoob
然而数据集还是私有的
> 1、有关1x我更烦恼的是怎么保留纹理,因为最低级别的降噪程度目前也自带一定纹理丢失,所以很可能训练的时候就不加噪了(除非想到了其他的保留纹理的方式,那就保留和2x3x4x一样的档位设置)。根据我的经验,为了纹理的保留,有必要再大尺度下进行计算(学界比较传统的认知是,在LR尺度下做主力运算性价比最高)。 参数的命名是根据训练加噪的程度来的,没有根据实际的降噪程度来命名,你提到的命名问题(有没有必要以实际降噪效果、程度作为命名),我之后想一下 2、锐度和纹理保留是一个很难平衡的trade-off,是可以继续加锐,因为我认为现在锐度已经很高(可能都过于高了)了,所以没有训练更高锐度的档位。现在的锐度已经观察到一些bad case了。 3、我调研过一些轻量化的训练方法和模块,不过等新的轻量级模型出来,大概率就不叫CUGAN了(因为结构没法再基于CUNet了)。 (1)我很喜欢ClassSR这种原理简单又有用的idea,但是他不适用CUNet结构,因为切patch了看不到全局,会丢失景深区域识别和纹理保留的特性; (2)MS3Conv本质上是一种结构上的改进。它的ab对照数据里,CARN是2018出的一篇指标很弱的baseline(SRResNet也是指标很弱的,baseline弱,提点很容易),文章2020年发表,参数/计算量上的提升其实不一定追得上2年的时代差带来的进步;另外太过复杂的结构会降低推理的效率(ESRGAN里面的RRDB就是一个非常正面的例子,结构简单有效,推理效率高),比起Flops我还是更想看到延迟或者吞吐这样的指标;比指标,我希望是看到以RCAN作为baseline的提升。 (3)改ViT的话,推理速度可能会比ESRGAN更慢。ViT系模型结构是实际推理效率远低于你能在论文里看到的FLOPS和参数量指标的结构,跑过的都懂。固然可以通过优化推理框架来提升ViT的推理速度,但是投入相同的研究成本,VGG也可以变得伟大。ViT的更大的意义我认为是提高领域的指标上限(从而开放pretrain模型给小数据集fine tune),条件是超大的训练集,代价是巨大无比,不过这个仓库不玩刷点哈~比较偏向实际,以及要多照顾大众普通玩家; (4)GhostNet用在图像识别上是有效的,但是我以前在low-level领域用他代替过conv跑过实验,掉点了,比较遗憾。 > > 悄悄告诉你,根据我的经验,对于二次元超分来说,网络结构不是最重要的,PSNR也不是很重要(如果有更好的衡量动画重建质量的指标,求科普),我们其实应该去思考一些更本质的东西。 感谢长回复 1x训练时输入那边不加噪也不下采样还剩什么呢?是加一些传统噪声以外的artifact吗 classsr切patch看不到全局的事。。其实cugan的ncnn实现那边已经有个gap sync了(这边的实现没试过不知道orz),就算分了tile也能借助gap的真·全局感受野得到正确的景深信息不会再出block了,如果你们算力和头发足够薅的话也可以再深挖一下?(其实还有个脑洞,patch切法好像也可以偷师视频编解码那边二叉树宏块划分的想法,大片一致纹理直接划一个块内之类的) ghost操作按他们的用法本来就会造成网络容量的下降,掉点也。。挺正常吧(除非是当加入新特征的用法提了容量还掉点就怪了) ghostsr没有直接用depthwise conv,换成shift操作了,看实验部分好像掉的也不多,计算量下降挺明显 (刚才不小心手贱close了,其实还有其它我看见过觉得可能有用的trick可是这里地方太小我写不下(x
> > > 1、有关1x我更烦恼的是怎么保留纹理,因为最低级别的降噪程度目前也自带一定纹理丢失,所以很可能训练的时候就不加噪了(除非想到了其他的保留纹理的方式,那就保留和2x3x4x一样的档位设置)。根据我的经验,为了纹理的保留,有必要再大尺度下进行计算(学界比较传统的认知是,在LR尺度下做主力运算性价比最高)。 参数的命名是根据训练加噪的程度来的,没有根据实际的降噪程度来命名,你提到的命名问题(有没有必要以实际降噪效果、程度作为命名),我之后想一下 2、锐度和纹理保留是一个很难平衡的trade-off,是可以继续加锐,因为我认为现在锐度已经很高(可能都过于高了)了,所以没有训练更高锐度的档位。现在的锐度已经观察到一些bad case了。 3、我调研过一些轻量化的训练方法和模块,不过等新的轻量级模型出来,大概率就不叫CUGAN了(因为结构没法再基于CUNet了)。 (1)我很喜欢ClassSR这种原理简单又有用的idea,但是他不适用CUNet结构,因为切patch了看不到全局,会丢失景深区域识别和纹理保留的特性; (2)MS3Conv本质上是一种结构上的改进。它的ab对照数据里,CARN是2018出的一篇指标很弱的baseline(SRResNet也是指标很弱的,baseline弱,提点很容易),文章2020年发表,参数/计算量上的提升其实不一定追得上2年的时代差带来的进步;另外太过复杂的结构会降低推理的效率(ESRGAN里面的RRDB就是一个非常正面的例子,结构简单有效,推理效率高),比起Flops我还是更想看到延迟或者吞吐这样的指标;比指标,我希望是看到以RCAN作为baseline的提升。 (3)改ViT的话,推理速度可能会比ESRGAN更慢。ViT系模型结构是实际推理效率远低于你能在论文里看到的FLOPS和参数量指标的结构,跑过的都懂。固然可以通过优化推理框架来提升ViT的推理速度,但是投入相同的研究成本,VGG也可以变得伟大。ViT的更大的意义我认为是提高领域的指标上限(从而开放pretrain模型给小数据集fine tune),条件是超大的训练集,代价是巨大无比,不过这个仓库不玩刷点哈~比较偏向实际,以及要多照顾大众普通玩家; (4)GhostNet用在图像识别上是有效的,但是我以前在low-level领域用他代替过conv跑过实验,掉点了,比较遗憾。 > > > 悄悄告诉你,根据我的经验,对于二次元超分来说,网络结构不是最重要的,PSNR也不是很重要(如果有更好的衡量动画重建质量的指标,求科普),我们其实应该去思考一些更本质的东西。 > > > > > > 感谢长回复 1x训练时输入那边不加噪也不下采样还剩什么呢?是加一些传统噪声以外的artifact吗 > > classsr切patch看不到全局的事。。其实cugan的ncnn实现那边已经有个gap sync了(这边的实现没试过不知道orz),就算分了tile也能借助gap的真·全局感受野得到正确的景深信息不会再出block了,如果你们算力和头发足够薅的话也可以再深挖一下?(其实还有个脑洞,patch切法好像也可以偷师视频编解码那边二叉树宏块划分的想法,大片一致纹理直接划一个块内之类的) >...