Gradient-Centralization icon indicating copy to clipboard operation
Gradient-Centralization copied to clipboard

关于语义分割的问题

Open GewelsJI opened this issue 5 years ago • 3 comments

Hi,
@Yonghongwei

在实例分割里面是有FC层作为分类,所以应该使用Adam_GC, 但是我使用在语义分割模型中,是没有FC层的,所以我应该使用Adam_GCC, 我在语义分割模型里面加了一些 Attention模块后,里面带有一些nn.Linear()层,我现在应该使用_GCC or _GC

感谢回答!

GewelsJI avatar Aug 07 '20 00:08 GewelsJI

我建议你都可以试一下,对attention这块的FC我们还没有测。不过我觉得应该也是会有一定效果的。

对于Adam来讲,GC可以放在前面也可以放在后面,你都可以试一下,参考我们最新算法的代码: https://github.com/Yonghongwei/Advanced-optimizer-with-Gradient-Centralization

Yonghongwei avatar Aug 07 '20 02:08 Yonghongwei

谢谢作者亲答。 我还有一个疑问就是,你说的GC在前面和后面的区别在于?

GewelsJI avatar Aug 07 '20 06:08 GewelsJI

对于SGD来讲,放在前面和后面是等价的。 但是对于自适应学习速率的方法,放在前面和后面就不是等价的了。 这点文章里没说的很清楚。放在后面可以保证每次更新都满足文章中所说的weight在同一个超平面上。放在 前面的话,只能有梯度方面的优势,但是weight更新后就不在我们希望的超平面上了。我们实际中发现放在后面有时候 会更好一些,你可以在你的问题上试试。

Yonghongwei avatar Aug 07 '20 07:08 Yonghongwei