minimind
minimind copied to clipboard
模型的Attention实现中,是不是缺少mask矩阵
output = F.scaled_dot_product_attention(
xq, xk, xv,
attn_mask=None,
dropout_p=dropout_p,
is_causal=True
)
我还不是特别了解。但是看到一些其他的attention实现比如deepseek-v3,发现都有传入三角矩阵,项目源代码里面的attention实现,如果走贴在这里的内置函数,是不是就缺少了mask。这个对于llm单向注意力应该还是比较关键的吧
PS:当前做预训练还是看出来有效果的,只是想吧ds的MLA注意力引入进来看下效果,所以有些疑问。