Qwen2.5 ft qwen2的时候，flash attn 和core attn的输出相差较大，且attn_mask为false的token, flash attn输出的是全0向量，但core attn输出的是一个正常向量

ft qwen2的时候，flash attn 和core attn的输出相差较大，且attn_mask为false的token, flash attn输出的是全0向量，但core attn输出的是一个正常向量

Open seanM29 opened this issue 6 months ago • 8 comments

训练的时候，发现启用不同的attn implement, 对loss有比较大的影响

定位发现，同样的q,k,v 输入值，flash attn 和core attn的输出相差较大，

且attn_mask为false的token, flash attn输出的是全0向量，但core attn输出的是一个正常向量,

不算这个0向量的话，flash attn和core attn输出的output token 相似度低的也有到0.8左右，不知道是否符合预期？感谢！

Aug 23 '24 06:08 seanM29