Qwen2.5 icon indicating copy to clipboard operation
Qwen2.5 copied to clipboard

ft qwen2的时候,flash attn 和core attn的输出相差较大,且attn_mask为false的token, flash attn输出的是全0向量,但core attn输出的是一个正常向量

Open seanM29 opened this issue 6 months ago • 8 comments

训练的时候,发现启用不同的attn implement, 对loss有比较大的影响

定位发现,同样的q,k,v 输入值,flash attn 和core attn的输出相差较大,

且attn_mask为false的token, flash attn输出的是全0向量,但core attn输出的是一个正常向量,

不算这个0向量的话,flash attn和core attn输出的output token 相似度低的也有到0.8左右,不知道是否符合预期?感谢!

seanM29 avatar Aug 23 '24 06:08 seanM29