NAFNet icon indicating copy to clipboard operation
NAFNet copied to clipboard

SimpleGate and SCA

Open kings-rgb opened this issue 3 years ago • 3 comments

你好,很高兴看到MEGVII在low-level任务上的新工作,在跑过demo之后,我在Imagenet分类任务上了尝试由NAFBlock组成的网络,但是取得的效果都比较差,请问这部分网络改进在high-level任务上有尝试过吗,或者说之后有相关工作会分享吗,非常感谢。

kings-rgb avatar Apr 18 '22 12:04 kings-rgb

Hi, kings-rgb,

您好,很高兴看到NAFBlock在high-level 的尝试。说实话,我们还未在imagenet上做过非常详尽的实验。 我们只能根据经验,对于“取得效果比较差”做一些可能的分析: 如果是巨大的掉点, 可能是优化上的问题: layer norm && skip-init 这两点很可能都是必要的;另一方面,如果是差一些点,可能是超参上的一些问题,比如模型flops的分配/正则(droppath/weight decay ...)/ lr / expand_ratio .. 等等 建议可以先在ConvNeXt tiny 这个尺度上进行实验验证

mayorx avatar Apr 19 '22 08:04 mayorx

Hi, kings-rgb,

我在ConvNeXt tiny的尺度上简单验证了下, (224x224, 4.5G MACs, 参数量~30M) 发现在相同setting下超过ConvNeXt应该不是很困难(82.1% top1 acc. 在约200 epoch时已经达到) 。 建议您直接参照ConvNeXt的setting来试一下?

mayorx avatar Apr 22 '22 03:04 mayorx

后续采用了替换ConvNeXt block的结构,在ConvNeXt的setting下可以很好训练,之前是构建了一个非常小的NAF网络(参数量约2-3m)然后采用较大的学习率导致loss经常归nan,大概是训练设置的原因,或许我应该沿用ConvNeXt的训练setting至小模型

kings-rgb avatar Apr 22 '22 09:04 kings-rgb