AdderNet
AdderNet copied to clipboard
咨询论文中的公式
1)想问一下论文3.3节中公式(9) 那条计算addnet输出方差的公式,公式的第一行是怎么推到 (1-2/π)... 这一行的呢 2)还是3.3节,公式(11) ,想问下损失对于xi的偏导这条公式是怎么得来的 3)3.3节公式(13) 本地学习率α的公式,为什么α采用这种形式就能够使各层以相同的步数更新呢 谢谢
- 标准正态分布的绝对值方差为(1-2/π)
- 见batch normalization原论文
- 这种学习率使得每层的梯度的量级相同,所以更新步长也基本可以看作相同的。
了解了,谢谢
您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢
您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢
你好,这里是写错了,应该是δB的平方,两个都代表方差。
您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢
你好,这里是写错了,应该是δB的平方,两个都代表方差。
您好,我有两个问题想问一下,①公式11下方,为什么可以直接取Var(Y)=δB的平方
呢,计算依据是什么?BN层做计算是对X正则,而Var(Y)是|X-F|的方差啊 ②公式9在计算的时候,是X和F各自符合的正态分布的方差是什么,是N(0,1)吗,还是说X-F整体符合N(0,1)呢?
您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢
你好,这里是写错了,应该是δB的平方,两个都代表方差。
您好,我有两个问题想问一下,①公式11下方,为什么可以直接取
Var(Y)=δB的平方
呢,计算依据是什么?BN层做计算是对X正则,而Var(Y)是|X-F|的方差啊 ②公式9在计算的时候,是X和F各自符合的正态分布的方差是什么,是N(0,1)吗,还是说X-F整体符合N(0,1)呢?
你好,这里的符号可能不是很清楚,这里的x是bn层的输入,其实就是conv层输出的Y
X和F的方差可以是任意的值,这里只是为了说明加法网络Y的方差会大于X的方差
您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢
你好,这里是写错了,应该是δB的平方,两个都代表方差。
您好,我有两个问题想问一下,①公式11下方,为什么可以直接取
Var(Y)=δB的平方
呢,计算依据是什么?BN层做计算是对X正则,而Var(Y)是|X-F|的方差啊 ②公式9在计算的时候,是X和F各自符合的正态分布的方差是什么,是N(0,1)吗,还是说X-F整体符合N(0,1)呢?你好,这里的符号可能不是很清楚,这里的x是bn层的输入,其实就是conv层输出的Y
X和F的方差可以是任意的值,这里只是为了说明加法网络Y的方差会大于X的方差
明白了,谢谢!
您好,我可以理解公式(9) 计算addnet输出方差的公式 (1-2/π)...,但是在其他版本中为什么会变成sqrt(π/2)....的形式呢?希望得到您的指点,谢谢
您好,我可以理解公式(9) 计算addnet输出方差的公式 (1-2/π)...,但是在其他版本中为什么会变成sqrt(π/2)....的形式呢?希望得到您的指点,谢谢
sqrt(π/2)....的形式为计算有误,请参考正确的版本
請問哪裡可以找到有正確公式的版本的論文呢? 謝謝