mesh SelfAttention & EncDecAttention in mesh transformer allow different values for query, key, value

SelfAttention & EncDecAttention in mesh transformer allow different values for query, key, value

Open desperadoola opened this issue 4 years ago • 0 comments

This paper Low-Rank Bottleneck in Multi-head Attention Models suggests that we could fix the head size and keep hidden size unchanged. Could you support setting d_k, d_q, d_v independently instead of d_kv.

Mar 02 '20 04:03 desperadoola

mesh mesh copied to clipboard

SelfAttention & EncDecAttention in mesh transformer allow different values for query, key, value

mesh
mesh copied to clipboard