minimind icon indicating copy to clipboard operation
minimind copied to clipboard

模型的Attention实现中,是不是缺少mask矩阵

Open Zephor5 opened this issue 2 days ago • 2 comments

            output = F.scaled_dot_product_attention(
                xq, xk, xv,
                attn_mask=None,
                dropout_p=dropout_p,
                is_causal=True
            )

我还不是特别了解。但是看到一些其他的attention实现比如deepseek-v3,发现都有传入三角矩阵,项目源代码里面的attention实现,如果走贴在这里的内置函数,是不是就缺少了mask。这个对于llm单向注意力应该还是比较关键的吧

PS:当前做预训练还是看出来有效果的,只是想吧ds的MLA注意力引入进来看下效果,所以有些疑问。

Zephor5 avatar Feb 25 '25 11:02 Zephor5