AdderNet icon indicating copy to clipboard operation
AdderNet copied to clipboard

咨询论文中的公式

Open Zhuyan98520 opened this issue 4 years ago • 10 comments

1)想问一下论文3.3节中公式(9) 那条计算addnet输出方差的公式,公式的第一行是怎么推到 (1-2/π)... 这一行的呢 2)还是3.3节,公式(11) ,想问下损失对于xi的偏导这条公式是怎么得来的 3)3.3节公式(13) 本地学习率α的公式,为什么α采用这种形式就能够使各层以相同的步数更新呢 谢谢

Zhuyan98520 avatar Oct 08 '20 06:10 Zhuyan98520

  1. 标准正态分布的绝对值方差为(1-2/π)
  2. 见batch normalization原论文
  3. 这种学习率使得每层的梯度的量级相同,所以更新步长也基本可以看作相同的。

HantingChen avatar Oct 09 '20 02:10 HantingChen

了解了,谢谢

Zhuyan98520 avatar Oct 09 '20 03:10 Zhuyan98520

您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢

Zhuyan98520 avatar Oct 10 '20 12:10 Zhuyan98520

您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢

你好,这里是写错了,应该是δB的平方,两个都代表方差。

HantingChen avatar Oct 10 '20 15:10 HantingChen

您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢

你好,这里是写错了,应该是δB的平方,两个都代表方差。

您好,我有两个问题想问一下,①公式11下方,为什么可以直接取Var(Y)=δB的平方呢,计算依据是什么?BN层做计算是对X正则,而Var(Y)是|X-F|的方差啊 ②公式9在计算的时候,是X和F各自符合的正态分布的方差是什么,是N(0,1)吗,还是说X-F整体符合N(0,1)呢?

Lg955 avatar May 13 '21 00:05 Lg955

您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢

你好,这里是写错了,应该是δB的平方,两个都代表方差。

您好,我有两个问题想问一下,①公式11下方,为什么可以直接取Var(Y)=δB的平方呢,计算依据是什么?BN层做计算是对X正则,而Var(Y)是|X-F|的方差啊 ②公式9在计算的时候,是X和F各自符合的正态分布的方差是什么,是N(0,1)吗,还是说X-F整体符合N(0,1)呢?

你好,这里的符号可能不是很清楚,这里的x是bn层的输入,其实就是conv层输出的Y

X和F的方差可以是任意的值,这里只是为了说明加法网络Y的方差会大于X的方差

HantingChen avatar May 17 '21 03:05 HantingChen

您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢

你好,这里是写错了,应该是δB的平方,两个都代表方差。

您好,我有两个问题想问一下,①公式11下方,为什么可以直接取Var(Y)=δB的平方呢,计算依据是什么?BN层做计算是对X正则,而Var(Y)是|X-F|的方差啊 ②公式9在计算的时候,是X和F各自符合的正态分布的方差是什么,是N(0,1)吗,还是说X-F整体符合N(0,1)呢?

你好,这里的符号可能不是很清楚,这里的x是bn层的输入,其实就是conv层输出的Y

X和F的方差可以是任意的值,这里只是为了说明加法网络Y的方差会大于X的方差

明白了,谢谢!

Lg955 avatar May 17 '21 05:05 Lg955

您好,我可以理解公式(9) 计算addnet输出方差的公式 (1-2/π)...,但是在其他版本中为什么会变成sqrt(π/2)....的形式呢?希望得到您的指点,谢谢

Zhaozixiang1228 avatar Jan 13 '22 04:01 Zhaozixiang1228

您好,我可以理解公式(9) 计算addnet输出方差的公式 (1-2/π)...,但是在其他版本中为什么会变成sqrt(π/2)....的形式呢?希望得到您的指点,谢谢

sqrt(π/2)....的形式为计算有误,请参考正确的版本

HantingChen avatar Mar 20 '23 08:03 HantingChen

請問哪裡可以找到有正確公式的版本的論文呢? 謝謝

kerkathy avatar Apr 17 '23 13:04 kerkathy