NAFNet SimpleGate and SCA

你好，很高兴看到MEGVII在low-level任务上的新工作，在跑过demo之后，我在Imagenet分类任务上了尝试由NAFBlock组成的网络，但是取得的效果都比较差，请问这部分网络改进在high-level任务上有尝试过吗，或者说之后有相关工作会分享吗，非常感谢。

Apr 18 '22 12:04 kings-rgb

Hi, kings-rgb,

您好，很高兴看到NAFBlock在high-level 的尝试。说实话，我们还未在imagenet上做过非常详尽的实验。我们只能根据经验，对于“取得效果比较差”做一些可能的分析：如果是巨大的掉点，可能是优化上的问题： layer norm && skip-init 这两点很可能都是必要的；另一方面，如果是差一些点，可能是超参上的一些问题，比如模型flops的分配/正则（droppath/weight decay ...)/ lr / expand_ratio .. 等等建议可以先在ConvNeXt tiny 这个尺度上进行实验验证

Apr 19 '22 08:04 mayorx

Hi, kings-rgb,

我在ConvNeXt tiny的尺度上简单验证了下， (224x224, 4.5G MACs, 参数量～30M）发现在相同setting下超过ConvNeXt应该不是很困难（82.1% top1 acc. 在约200 epoch时已经达到) 。建议您直接参照ConvNeXt的setting来试一下？

Apr 22 '22 03:04 mayorx

后续采用了替换ConvNeXt block的结构，在ConvNeXt的setting下可以很好训练，之前是构建了一个非常小的NAF网络（参数量约2-3m）然后采用较大的学习率导致loss经常归nan，大概是训练设置的原因，或许我应该沿用ConvNeXt的训练setting至小模型

Apr 22 '22 09:04 kings-rgb

NAFNet NAFNet copied to clipboard

SimpleGate and SCA

NAFNet
NAFNet copied to clipboard