HantingChen
HantingChen
> > > 您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢 > > > > > > 你好,这里是写错了,应该是δB的平方,两个都代表方差。 > > 您好,我有两个问题想问一下,①公式11下方,为什么可以直接取`Var(Y)=δB的平方`呢,计算依据是什么?BN层做计算是对X正则,而Var(Y)是|X-F|的方差啊 ②公式9在计算的时候,是X和F各自符合的正态分布的方差是什么,是N(0,1)吗,还是说X-F整体符合N(0,1)呢? 你好,这里的符号可能不是很清楚,这里的x是bn层的输入,其实就是conv层输出的Y X和F的方差可以是任意的值,这里只是为了说明加法网络Y的方差会大于X的方差
可以采用常见的pytorch计算FLOPs的工具包进行计算,例如https://github.com/Lyken17/pytorch-OpCounter
不打算开源,量化算法部分可以参考论文3.1节,谢谢!
请参考论文https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_AdderNet_Do_We_Really_Need_Multiplications_in_Deep_Learning_CVPR_2020_paper.pdf math.sqrt(W_col.size(1)*W_col.size(0))为公式13中的sqrt(k) /5为公式13中的eta,是一个超参 由于FC层可以使用卷积层来实现,可以直接使用卷积层的代码即可,不需要修改。
We have not try to replace the deformable conv by adder operation. AdderNet can also be efficient for this kind of network if successfully applied. For the int8 quantization, we...
可以参考https://github.com/microsoft/LQ-Nets/blob/master/cifar10-vgg-small.py
采用的是最经典的LeNet-5网络结构:http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf 
We do not replace the first and last conv in the networks, since replacing them would affect the performance and their computational cost is relatively very small in the whole...
是任意的,没有进行统计
> dafl的训练似乎十分不稳定,同样的超参数设置,不同的随机数种子,结果差的很远 不设置随机数种子,精度能达到88以上,设置种子为12345以后,精度出现了下降 以上结果皆是运行在8卡机器,每个卡上的batch_size为128,总1024,损失的权重保持此仓库的默认设置。 是的,训练不是很稳定