Qwen2.5
Qwen2.5 copied to clipboard
ft qwen2的时候,flash attn 和core attn的输出相差较大,且attn_mask为false的token, flash attn输出的是全0向量,但core attn输出的是一个正常向量
训练的时候,发现启用不同的attn implement, 对loss有比较大的影响
定位发现,同样的q,k,v 输入值,flash attn 和core attn的输出相差较大,
且attn_mask为false的token, flash attn输出的是全0向量,但core attn输出的是一个正常向量,
不算这个0向量的话,flash attn和core attn输出的output token 相似度低的也有到0.8左右,不知道是否符合预期?感谢!