minimind 模型的Attention实现中，是不是缺少mask矩阵

模型的Attention实现中，是不是缺少mask矩阵

Open Zephor5 opened this issue 2 days ago • 2 comments

            output = F.scaled_dot_product_attention(
                xq, xk, xv,
                attn_mask=None,
                dropout_p=dropout_p,
                is_causal=True
            )

我还不是特别了解。但是看到一些其他的attention实现比如deepseek-v3，发现都有传入三角矩阵，项目源代码里面的attention实现，如果走贴在这里的内置函数，是不是就缺少了mask。这个对于llm单向注意力应该还是比较关键的吧

PS：当前做预训练还是看出来有效果的，只是想吧ds的MLA注意力引入进来看下效果，所以有些疑问。

Feb 25 '25 11:02 Zephor5

minimind minimind copied to clipboard

模型的Attention实现中，是不是缺少mask矩阵

minimind
minimind copied to clipboard