Cross-Modal-BERT
Cross-Modal-BERT copied to clipboard
关于Masked Multimodal Attention的数据设置
为什么在这里要直接将𝑄𝑡 = 𝐾𝑡 = ˆ 𝑋𝑡'(和𝑄𝑎 = 𝐾𝑎 = ˆ 𝑋𝑎 ′) 为什么不进行——用不同的W_k, W_Q来计算Q和K的操作呢