ReviewKD icon indicating copy to clipboard operation
ReviewKD copied to clipboard

关于"distilling from teacher’s higher levels adversely affects training of the student."的思考

Open littletomatodonkey opened this issue 2 years ago • 2 comments

今天重新读了一遍论文,对于下面不同stage的feature map,有一些蒸馏实验结果

image

并且有以下结论

image

个人认为这里的higher level并非是网络深度来定义的,而是由feature map分辨率来定义的(分辨率越小,level越higher),否则的话,相同stage下,teacher model的深度是大于student model的,想请教下作者关于这里的理解,也欢迎大家一起讨论~

littletomatodonkey avatar Feb 02 '23 11:02 littletomatodonkey

我实验的时候,我的数据用单纯的HCL比ABF+HCL更好一点点。我觉得是HCL的金字塔结构(也就是你说的feature map分辨率)是他最有效的地方

PGCJ avatar Feb 04 '23 08:02 PGCJ

对,这里的higher level确实应该是分辨率来定义的,在写paper的时候想的是以stage为单位来定义网络的深度的,一般来说一个stage就是同一个分辨率的网络模块,所以higher level指的是stage更多的,而不是卷积层更多的,确实存在一定歧义,感谢指出!

关于ABF和HCL的作用,按我的经验来说,确实不同数据集上面蒸馏方式的work程度是不一样的,所以有这样的结论也是合理的。

akuxcw avatar Feb 09 '23 07:02 akuxcw