attention
attention copied to clipboard
请问Q,K,V分别是从哪里输入的呢?
拜读了您的《Attention is All You Need》浅读,对Q,K,V这三个矩阵的来源仍然不理解,我的一种理解是Q是attention layer的输入,K和V是需要训练的两个权重矩阵,这样理解对吗?
你好,我不是作者,不知道为什么我的微信能看到这份邮件,不过我的理解是,k,v不是参数矩阵,它们同q一样,都是来源于输入序列
自注意力中Q=K=V