NAFNet
NAFNet copied to clipboard
SimpleGate and SCA
你好,很高兴看到MEGVII在low-level任务上的新工作,在跑过demo之后,我在Imagenet分类任务上了尝试由NAFBlock组成的网络,但是取得的效果都比较差,请问这部分网络改进在high-level任务上有尝试过吗,或者说之后有相关工作会分享吗,非常感谢。
Hi, kings-rgb,
您好,很高兴看到NAFBlock在high-level 的尝试。说实话,我们还未在imagenet上做过非常详尽的实验。 我们只能根据经验,对于“取得效果比较差”做一些可能的分析: 如果是巨大的掉点, 可能是优化上的问题: layer norm && skip-init 这两点很可能都是必要的;另一方面,如果是差一些点,可能是超参上的一些问题,比如模型flops的分配/正则(droppath/weight decay ...)/ lr / expand_ratio .. 等等 建议可以先在ConvNeXt tiny 这个尺度上进行实验验证
Hi, kings-rgb,
我在ConvNeXt tiny的尺度上简单验证了下, (224x224, 4.5G MACs, 参数量~30M) 发现在相同setting下超过ConvNeXt应该不是很困难(82.1% top1 acc. 在约200 epoch时已经达到) 。 建议您直接参照ConvNeXt的setting来试一下?
后续采用了替换ConvNeXt block的结构,在ConvNeXt的setting下可以很好训练,之前是构建了一个非常小的NAF网络(参数量约2-3m)然后采用较大的学习率导致loss经常归nan,大概是训练设置的原因,或许我应该沿用ConvNeXt的训练setting至小模型