Tensorflow implementation of various Attention Mechanisms, MLP, Re-parameter, Convolution, which is helpful to further understand papers.
- Contents
Attention Series
1. Residual Attention Usage
- 1.1. Paper
- 1.2 Overview
- 1.3. UsageCode
2. External Attention Usage
- 2.1. Paper
- 2.2. Overview
- 2.3. UsageCode
3. Self Attention Usage
- 3.1. Paper
- 3.2. Overview
- 3.3. UsageCode
4. Simplified Self Attention Usage
- 4.1. Paper
- 4.2. Overview
- 4.3. UsageCode
5. Squeeze-and-Excitation Attention Usage
- 5.1. Paper
- 5.2. Overview
- 5.3. UsageCode
6. SK Attention Usage
- 6.1. Paper
- 6.2. Overview
- 6.3. UsageCode
7. CBAM Attention Usage
- 7.1. Paper
- 7.2. Overview
- 7.3. Usage Code
8. BAM Attention Usage
- 8.1. Paper
- 8.2. Overview
- 8.3. Usage Code
9. ECA Attention Usage
- 9.1. Paper
- 9.2. Overview
- 9.3. Usage Code
10. DANet Attention Usage
- 10.1. Paper
- 10.2. Overview
- 10.3. Usage Code
11. Pyramid Squeeze Attention Usage
- 11.1. Paper
- 11.2. Overview
- 11.3. Usage Code
12. Efficient Multi-Head Self-Attention Usage
- 12.1. Paper
- 12.2. Overview
- 12.3. Usage Code
13. Shuffle Attention Usage
- 13.1. Paper
- 13.2. Overview
- 13.3. Usage Code
14. MUSE Attention Usage
- 14.1. Paper
- 14.2. Overview
- 14.3. Usage Code
15. SGE Attention Usage
- 15.1. Paper
- 15.2. Overview
- 15.3. Usage Code
16. A2 Attention Usage
- 16.1. Paper
- 16.2. Overview
- 16.3. Usage Code
17. AFT Attention Usage
- 17.1. Paper
- 17.2. Overview
- 17.3. Usage Code
18. Outlook Attention Usage
- 18.1. Paper
- 18.2. Overview
- 18.3. Usage Code
19. ViP Attention Usage
- 19.1. Paper
- 19.2. Overview
- 19.3. Usage Code
20. CoAtNet Attention Usage
- 20.1. Paper
- 20.2. Overview
- 20.3. Usage Code
21. HaloNet Attention Usage
- 21.1. Paper
- 21.2. Overview
- 21.3. Usage Code
22. Polarized Self-Attention Usage
- 22.1. Paper
- 22.2. Overview
- 22.3. Usage Code
23. CoTAttention Usage
- 23.1. Paper
- 23.2. Overview
- 23.3. Usage Code
24. S2 Attention Usage
- 24.1. Paper
- 24.2. Overview
- 24.3. Usage Code
25. GFNet Attention Usage
- 25.1. Paper
- 25.2. Overview
- 25.3. Usage Code - Implemented by Wenliang Zhao (Author)
26. TripletAttention Usage
- 26.1. Paper
- 26.2. Overview
- 26.3. Usage Code - Implemented by digantamisra98
27. Coordinate Attention Usage
- 27.1. Paper
- 27.2. Overview
- 27.3. Usage Code - Implemented by Andrew-Qibin
28. MobileViT Attention Usage
- 28.1. Paper
- 28.2. Overview
- 28.3. Usage Code
29. ParNet Attention Usage
- 29.1. Paper
- 29.2. Overview
- 29.3. Usage Code
30. UFO Attention Usage
- 30.1. Paper
- 30.2. Overview
- 30.3. Usage Code
31. MobileViTv2 Attention Usage
- 31.1. Paper
- 31.2. Overview
- 31.3. Usage Code
32. Infini-attention Usage
- 32.1. Paper
- 32.2. Overview
- 32.3. Usage Code
1.1. Paper
Residual Attention: A Simple but Effective Method for Multi-Label Recognition---ICCV2021
1.2 Overview
Only 4 lines of code consistently leads to improvement of multi-label recognition, across many diverse pretrained attentions and datasets, even without any extra training. (在许多不同的预训练模型和数据集上,即使没有任何额外的训练,只用4行代码也可以提高多标签识别的准确率)
1.3. UsageCode
from attention.ResidualAttention import ResidualAttention
import tensorflow as tf
input = tf.random.normal(shape=(50, 7, 7, 512))
resatt = ResidualAttention(num_class=1000, la=0.2)
output = resatt(input)
2. External Attention Usage
2.1. Paper
"Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks"
2.2. Overview
(1)O(n^2)的计算复杂度;(2) SA是在同一个样本上根据不同位置计算Attention,忽略了不同样本之间的联系。
因此,本文采用了两个串联的MLP结构作为memory units,使得计算复杂度降低到了O(n);此外,这两个memory units是基于全部的训练数据学习的,因此也隐式的考虑了不同样本之间的联系。
2.3. UsageCode
from attention.ExternalAttention import ExternalAttention
import tensorflow as tf
input = tf.random.normal(shape=(50, 49, 512))
ea = ExternalAttention(d_attention=512, S=8)
output = ea(input)
3. Self Attention Usage
3.1. Paper
3.2. Overview
这是Google在NeurIPS2017发表的一篇文章,在CV、NLP、多模态等各个领域都有很大的影响力,目前引用量已经4.5w+。Transformer中提出的 Self-Attention是Attention的一种,用于计算特征中不同位置之间的权重,从而达到更新特征的效果。首先将input feature通过FC映射成Q、K、V 三个特征,然后将Q和K进行点乘的得到attention map,再将attention map与V做点乘得到加权后的特征。最后通过FC进行特征的映射,得到一个新的特征。
3.3. UsageCode
from attention.SelfAttention import ScaledDotProductAttention
import tensorflow as tf
input = tf.random.normal((50, 49, 512))
sa = ScaledDotProductAttention(d_attention=512, d_k=512, d_v=512, h=8)
output = sa(input, input, input)
4. Simplified Self Attention Usage
4.1. Paper
4.2. Overview
4.3. UsageCode
from attention.SimplifiedSelfAttention import SimplifiedScaledDotProductAttention
import tensorflow as tf
input = tf.random.normal((50, 49, 512))
ssa = SimplifiedScaledDotProductAttention(d_attention=512, h=8)
output = ssa(input, input, input)
5. Squeeze-and-Excitation Attention Usage
5.1. Paper
"Squeeze-and-Excitation Networks"
5.2. Overview
这是CVPR2018的一篇文章,是做通道注意力的,因其简单的结构和有效性,将通道注意力掀起了一波小高潮。大道至简,这篇文章的思想非常简单,首先将 spatial维度进行AdaptiveAvgPool,然后通过两个FC学习到通道注意力,并用Sigmoid进行归一化得到Channel Attention Map,最后将Channel Attention Map与原特征相乘,就得到了加权后的特征。
5.3. UsageCode
from attention.SEAttention import SEAttention
import tensorflow as tf
input = tf.random.normal((50, 7, 7, 512))
se = SEAttention(channel=512, reduction=8)
output = se(input)
6. SK Attention Usage
6.1. Paper
6.2. Overview
本文的方法分为三个部分:Split,Fuse,Select。Split就是一个multi-branch的操作,用不同的卷积核进行卷积得到不同的特征;Fuse部分就是用SE的结构获取通道注意力的矩阵( N个卷积核就可以得到N个注意力矩阵,这步操作对所有的特征参数共享),这样就可以得到不同kernel经过SE之后的特征;Select操作就是将这几个特征进行相加。
6.3. UsageCode
from attention.SKAttention import SKAttention
import tensorflow as tf
input = tf.random.normal((50, 7, 7, 512))
se = SKAttention(channel=512, reduction=8)
output = se(input)
7. CBAM Attention Usage
7.1. Paper
"CBAM: Convolutional Block Attention Module"
7.2. Overview
这是ECCV2018的一篇论文,这篇文章同时使用了Channel Attention和Spatial Attention,将两者进行了串联(文章也做了并联和两种串联方式的消融实验)。
Channel Attention方面,大致结构还是和SE相似,不过作者提出AvgPool和MaxPool有不同的表示效果,所以作者对原来的特征在Spatial维度分别进行了AvgPool和MaxPool,然后用SE的结构提取channel attention,注意这里是参数共享的,然后将两个特征相加后做归一化,就得到了注意力矩阵。
Spatial Attention和Channel Attention类似,先在channel维度进行两种pool后,将两个特征进行拼接,然后用7x7的卷积来提取Spatial Attention(之所以用7x7是因为提取的是空间注意力,所以用的卷积核必须足够大)。然后做一次归一化,就得到了空间的注意力矩阵。
7.3. Usage Code
from attention.CBAM import CBAMBlock
import tensorflow as tf
input = tf.random.normal((50, 7, 7, 512))
kernel_size = input.get_shape()[1]
cbam = CBAMBlock(channel=512, reduction=16, kernel_size=kernel_size)
output = cbam(input)
8. BAM Attention Usage
8.1. Paper
"BAM: Bottleneck Attention Module"
8.2. Overview
Channel Attention方面,与SE的结构基本一样。Spatial Attention方面,还是在通道维度进行pool,然后用了两次3x3的空洞卷积,最后将用一次1x1的卷积得到Spatial Attention的矩阵。
最后Channel Attention和Spatial Attention矩阵进行相加(这里用到了广播机制),并进行归一化,这样一来,就得到了空间和通道结合的attention矩阵。
8.3. Usage Code
from attention.BAM import BAMBlock
import tensorflow as tf
input = tf.random.normal((50, 7, 7, 512))
bam = BAMBlock(channel=512, reduction=16, dia_val=2)
output = bam(input)
9. ECA Attention Usage
9.1. Paper
"ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks"
9.2. Overview
这是CVPR2020的一篇文章。 如上图所示,SE实现通道注意力是使用两个全连接层,而ECA是需要一个的卷积。作者这么做的原因一方面是认为计算所有通道两两之间的注意力是没有必要的,另一方面是用两个全连接层确实引入了太多的参数和计算量。
9.3. Usage Code
from attention.ECAAttention import ECAAttention
import tensorflow as tf
input = tf.random.normal((50, 7, 7, 512))
eca = ECAAttention(kernel_size=3)
output = eca(input)
10. DANet Attention Usage
10.1. Paper
"Dual Attention Network for Scene Segmentation"
10.2. Overview
这是CVPR2019的文章,思想上就是将self-attention用到场景分割的任务中,不同的是self-attention是关注每个position之间的注意力,而本文将self-attention做了一个拓展,还做了一个通道注意力的分支,操作上和self-attention一样,不同的通道attention中把生成Q,K,V的三个Linear去掉了。最后将两个attention之后的特征进行element-wise sum。
10.3. Usage Code
from attention.DANet import DAModule
import tensorflow as tf
input = tf.random.normal((50, 7, 7, 512))
danet = DAModule(d_attention=512, kernel_size=3, H=7, W=7)
11. Pyramid Squeeze Attention Usage
11.1. Paper
"EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network"
11.2. Overview
这是深大2021年5月30日在arXiv上上传的一篇文章,本文的目的是如何获取并探索不同尺度的空间信息来丰富特征空间。网络结构相对来说也比较简单,主要分成四步,第一步,将原来的feature根据通道分成n组然后对不同的组进行不同尺度的卷积,得到新的特征W1;第二步,通过使用SE权重模块提取不同尺度的特征图的注意力,得到channel-wise attention向量;第三步,对不同组进行softmax;第四步,将获得channel-wise attention与原来的特征W1相乘。
11.3. Usage Code
from attention.PSA import PSA
import tensorflow as tf
input = tf.random.normal((50, 7, 7, 512))
psa = PSA(channel=512, reduction=8)
output = psa(input)
12. Efficient Multi-Head Self-Attention Usage
12.1. Paper
"ResT: An Efficient Transformer for Visual Recognition"
12.2. Overview
12.3. Usage Code
from attention.EMSA import EMSA
import tensorflow as tf
input = tf.random.normal((50, 64, 512))
emsa = EMSA(d_attention=512, d_k=512, d_v=512, h=8, H=8, W=8, ratio=2, apply_transform=True)
output = emsa(input, input, input)
13. Shuffle Attention Usage
13.1. Paper
13.2. Overview
采用Shuffle Units将两种注意力机制有效结合。具体来说,SA首先将通道维度分组为多个子特征,然后并行处理它们。其次,对于每个子特征,SA使用Shuffle Unit来描述空间和通道维度上的特征依赖关系。最后,对所有子特征进行聚合,并采用“channel shuffle”算子来实现不同子特征之间的信息通信。
13.3. Usage Code
from attention.ShuffleAttention import ShuffleAttention
import tensorflow as tf
input = tf.random.normal((50, 7, 7, 512))
se = ShuffleAttention(channel=512, G=8)
output = se(input)
14. MUSE Attention Usage
14.1. Paper
"MUSE: Parallel Multi-Scale Attention for Sequence to Sequence Learning"
14.2. Overview
这是北大团队2019年在arXiv上发布的一篇文章,主要解决的是Self-Attention(SA)只有全局捕获能力的缺点。如下图所示,当句子长度变长时, SA的全局捕获能力变弱,导致最终模型性能变差。因此,作者在文中引入了多个不同感受野的一维卷积来捕获多尺度的局部Attention,以此来弥补SA在建模长句子能力的不足。
14.3. Usage Code
from attention.MUSEAttention import MUSEAttention
import tensorflow as tf
input = tf.random.normal((50, 49, 512))
sa = MUSEAttention(d_attention=512, d_k=512, d_v=512, h=8)
output = sa(input, input, input)
15. SGE Attention Usage
15.1. Paper
Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks
15.2. Overview
这篇文章是SKNet 作者在19年的时候在arXiv上挂出的文章,是一个轻量级Attention的工作,从核心代码中可以看出,引入的参数真的非常少,self.weight和self.bias都是和groups呈一个数量级的(几乎就是常数级别)。
- 将特征分组,每组feature在空间上与其global pooling后的feature做点积(相似性)得到初始的attention mask;
- 对该attention mask进行减均值除标准差的normalize,并同时每个group学习两个缩放偏移参数使得normalize操作可被还原;
- 最后经过sigmoid得到最终的attention mask并对原始feature group中的每个位置的feature进行scale。
实验部分,作者也是在分类任务(ImageNet)和检测任务(COCO)上做了实验,能够在比SK、CBAM 、BAM等网络参数和计算量更小的情况下,获得更好的性能,证明了本文方法的高效性。
15.3. Usage Code
from attention.SGE import SpatialGroupEnhance
import tensorflow as tf
input = tf.random.normal((50, 7, 7, 512))
sge = SpatialGroupEnhance(groups=8)
output = sge(input)
16. A2 Attention Usage
16.1. Paper
A2-Nets: Double Attention Networks
16.2. Overview
input用1x1的卷积变成A,B,V(类似self-attention的Q,K,V)。本文的方法主要分为两个步骤,第一步,feature gathering,首先用A和B进行点乘,得到一个聚合全局信息的attention,标记为G。然后用G和V进行点乘,得到二阶的attention。
从实验结果上看,这个结构的效果还是非常不错的,作者在分类(ImageNet)和行为识别(Kinetics , UCF-101)任务上做了实验,都取得非常好的效果,相比于Non-Local[12]、SENet[13] 等模型,都有不错的提升。
16.3. Usage Code
from attention.A2Attention import DoubleAttention
import tensorflow as tf
input = tf.random.normal((50, 7, 7, 512))
a2 = DoubleAttention(512, 128, 128, True)
output = a2(input)
17. AFT Attention Usage
17.1. Paper
17.2. Overview
Transformer近几年被用于各种任务中,但是由于Self-Attention的与输入数据大小呈平方关系的时间和空间复杂度,它不能被用于太大的数据中。 近几年,基于简化SA的复杂度,很多工作也被提出:稀疏注意力、局部哈希、低质分解...
本文提出了一个Attention Free Transformer(AFT),AFT也是由QKV三部分组成,不同的是QK不是做点积。而是将KV直接融合了,从而来保证对应位置的交互,然后Q与融合后的特征进行了对应位置相乘,来减少计算量。
17.3. Usage Code
from attention.AFT import AFT_FULL
import tensorflow as tf
input = tf.random.normal((50, 49, 512))
aft_full = AFT_FULL(d_model=512, n=49)
output = aft_full(input)
18. Outlook Attention Usage
18.1. Paper
VOLO: Vision Outlooker for Visual Recognition---arXiv 2021.06.24"
18.2. Overview
Transformer-based模型在Visual Recognition领域,如果不借助额外的训练数据,比CNN-based模型要差一点。作者认为,这是因为token embedding并没有进行细粒度特征表示,因此本文提出了一种新的Attention方式,通过局部信息的感知,能够获得更加细粒度的特征表示。
整个框架分为两个分支,上面的分支用于生成attention map,下面的分支用于生成投影后的value。然后通过矩阵乘法得到outlook attention后的结果,最后通过Fold函数将feature map还原到输入大小。
- 上面分支Linear是为了对特征进行embedding,之后对特征进行reshape,最后通过softmax得到每个位置和周围几个位置的注意力权重。
- 下面分支同样进行embedding,之后通过unfold,也就是滑动窗口的形式将特征中的K*K区域取出来。
可以看出,在Outlook Attention中,每一个中心点的位置都与周围k*k个位置进行attention操作,这个步骤就有点类似卷积。
18.3. Usage Code
from attention.OutlookAttention import OutlookAttention
import tensorflow as tf
19. ViP Attention Usage
19.1. Paper
Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition"
19.2. Overview
19.3. Usage Code
from attention.ViP import WeightedPermuteMLP
import tensorflow as tf
input = tf.random.normal((64, 8, 8, 512))
seg_dim = 8
vip = WeightedPermuteMLP(512, seg_dim)
output = vip(input)
20. CoAtNet Attention Usage
20.1. Paper
CoAtNet: Marrying Convolution and Attention for All Data Sizes"
20.2. Overview
Transformers 在计算机视觉方面吸引了越来越多的兴趣,但它们仍然落后于最先进的卷积网络。在这项工作中,我们表明虽然 Transformer 往往具有更大的模型容量,但由于缺乏正确的归纳偏差,它们的泛化可能比卷积网络更差。 为了有效地结合两种架构的优势,我们提出了 CoAtNets(发音为“coat”nets),这是一个基于两个关键insight构建的混合模型系列:
- 深度卷积和自注意力可以通过简单的相对注意力自然地统一起来;
- 以有原则的方式垂直堆叠卷积层和注意力层在提高泛化、容量和效率方面非常有效。
20.3. Usage Code
from attention.CoAtNet import CoAtNet
import tensorflow as tf
input = tf.random.normal((1, 224, 224, 3))
coatnet = CoAtNet(in_ch=3)
output = coatnet(input)
21. HaloNet Attention Usage
21.1. Paper
Scaling Local Self-Attention for Parameter Efficient Visual Backbones
21.2. Overview
21.3. Usage Code
from attention.HaloAttention import HaloAttention
import tensorflow as tf
22. Polarized Self-Attention Usage
22.1. Paper
Polarized Self-Attention: Towards High-quality Pixel-wise Regression"
22.2. Overview
22.3. Usage Code
from attention.PolarizedSelfAttention import SequentialPolarizedSelfAttention
import tensorflow as tf
if __name__ == '__main__':
input_tensor = tf.random.normal([1, 7, 7, 512])
psa = SequentialPolarizedSelfAttention(channel=512)
output_tensor = psa(input_tensor)
23. CoTAttention Usage
23.1. Paper
Contextual Transformer Networks for Visual Recognition---arXiv 2021.07.26
23.2. Overview
23.3. Usage Code
from attention.CoTAttention import CoTAttention
import tensorflow as tf
24. S2 Attention Usage
24.1. Paper
S²-MLPv2: Improved Spatial - Shift MLP Architecture for Vision ---arXiv 2021.08.02
24.2. Overview
24.3. Usage Code
from attention.S2Attention import S2Attention
import tensorflow as tf
25. GFNet Attention Usage
25.1. Paper
Global Filter Networks for Image Classification---arXiv 2021.07.01
25.2. Overview
25.3. Usage Code - Implemented by Wenliang Zhao (Author)
from attention.gfnet import GFNet
import tensorflow as tf
26. TripletAttention Usage
26.1. Paper
Rotate to Attend: Convolutional Triplet Attention Module---CVPR 2021
26.2. Overview
26.3. Usage Code - Implemented by digantamisra98
from attention.TripletAttention import TripletAttention
import tensorflow as tf
27. Coordinate Attention Usage
27.1. Paper
Coordinate Attention for Efficient Mobile Network Design---CVPR 2021
27.2. Overview
27.3. Usage Code - Implemented by Andrew-Qibin
from attention.CoordAttention import CoordAtt
import tensorflow as tf
28. MobileViT Attention Usage
28.1. Paper
MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer---ArXiv 2021.10.05
28.2. Overview
28.3. Usage Code
from attention.MobileViTAttention import MobileViTAttention
import tensorflow as tf
29. ParNet Attention Usage
29.1. Paper
Non-deep Networks---ArXiv 2021.10.20
29.2. Overview
29.3. Usage Code
from attention.ParNetAttention import *
import tensorflow as tf
30. UFO Attention Usage
30.1. Paper
UFO-ViT: High Performance Linear Vision Transformer without Softmax---ArXiv 2021.09.29
30.2. Overview
30.3. Usage Code
from attention.UFOAttention import *
import tensorflow as tf
31. MobileViTv2 Attention Usage
31.1. Paper
Separable Self-attention for Mobile Vision Transformers---ArXiv 2022.06.06
31.2. Overview
31.3. Usage Code
from attention.UFOAttention import *
import tensorflow as tf
32. Infini-attention Usage
32.1. Paper
32.2. Overview
32.3. Usage Code