chenying0722

Results 1 issues of chenying0722

作者您好,论文里描述到差分注意力部分对Q和K的分割是从特征即d维度进行的,,请问如果在做线性注意力即Q((K_T)V)的时候可否从n维度对K和V进行分割呢?这样做还符合差分注意力的初始意义吗?十分期待您的回复!