DeepSeek-V2 [Bug]: MLA实现没有带来任何收益

[Bug]: MLA实现没有带来任何收益

Open foamliu opened this issue 10 months ago • 0 comments

MLA（multi head latent attention）的实现本来是为着提升推理速度，但由于存入缓存的数据比基线（Llama）更大，因此不但未带来任何收益，而且与基线（Llama）相比，占用显存更多，推理更慢。

下面是 DeepSeekV3 HF官网的MLA实现，可见存入KVCache的数据量，比基线（Llama）还大： cba6bdda9920aacfab1acc96e21652a

下面是推理测速的结果：

Jan 01 '25 05:01 foamliu