StreamPETR
StreamPETR copied to clipboard
交叉注意力机制的历史图像特征
您好,我在看论文的时候发现Propagation Transformer的交叉注意力中使用了两个图像特征,分别是来自t-1时刻和t时刻的图像特征,但是我在阅读源码的时候并没有发现t-1时刻的特征从哪里来的(或者是t时刻的特征),在Transformer中只是用了一个6层的解码器,并没有使用两个6层的解码器。请问是我哪里理解错了吗