Informer2020
Informer2020 copied to clipboard
时间复杂度真的是由L^2降低到了LlogL吗?
在计算时,时间复杂度不应该是L^3吗,外面V的尺寸也是L呀
两个是加和关系。
哈哈,我问了个好蠢的问题,感谢回复。 但是要达到LlogL,那么softmax的结果和V相乘的时候也应该采用相同的策略,我看论文里一点都没有提及呢
self attention的时间复杂度不应该是O(L^2*d)吗?为什么就只是O(L^2)。还有论文中说的canonical dot-product具体什么操作?
d是一个常数,是隐藏层的维度,在复杂度计算的时候是不讨论的。 canonical dot-product就是指标准Transformer模型的点积注意力计算方式。