Notes icon indicating copy to clipboard operation
Notes copied to clipboard

初步理解残差模块的设计意图

Open any86 opened this issue 2 years ago • 0 comments

image

基本网上这张图, 输入为x,输出为f(x)+x, 其中f(x)叫残差, 也就是预测值 - 观测值, 很多文章都提到对等映射, 所以一开始就进入了一个误区f(x)+x = x,怎么可能呢? 视频里一直提梯度消失, 结合多个视频我猜想:

是不是当梯度消失的时候f(x)接近于0, 所以近似于f(x)+x = x, 这时候就是对等映射了, 如果不消失那么就不用管了, 就正常对f(x)+x反向求梯度就行了. 暂时这么理解吧, 反正能自洽了.

any86 avatar Jan 16 '23 09:01 any86