Informer2020 时间复杂度真的是由L^2降低到了LlogL吗？

时间复杂度真的是由L^2降低到了LlogL吗？

Open Jiahui-Gu opened this issue 2 years ago • 3 comments

在计算时，时间复杂度不应该是L^3吗，外面V的尺寸也是L呀

Mar 28 '22 05:03 Jiahui-Gu

两个是加和关系。

Mar 31 '22 09:03 zhouhaoyi

哈哈，我问了个好蠢的问题，感谢回复。但是要达到LlogL，那么softmax的结果和V相乘的时候也应该采用相同的策略，我看论文里一点都没有提及呢

Mar 31 '22 11:03 Jiahui-Gu

self attention的时间复杂度不应该是O（L^2*d）吗？为什么就只是O(L^2)。还有论文中说的canonical dot-product具体什么操作？

Sep 20 '22 09:09 liuweishuo

d是一个常数，是隐藏层的维度，在复杂度计算的时候是不讨论的。 canonical dot-product就是指标准Transformer模型的点积注意力计算方式。

Mar 28 '23 02:03 MountVoom