DeepSeek-V2 icon indicating copy to clipboard operation
DeepSeek-V2 copied to clipboard

[Bug]: MLA实现没有带来任何收益

Open foamliu opened this issue 10 months ago • 0 comments

MLA(multi head latent attention)的实现本来是为着提升推理速度,但由于存入缓存的数据比基线(Llama)更大,因此不但未带来任何收益,而且与基线(Llama)相比,占用显存更多,推理更慢。

下面是 DeepSeekV3 HF官网的MLA实现,可见存入KVCache的数据量,比基线(Llama)还大: cba6bdda9920aacfab1acc96e21652a

下面是推理测速的结果: image

foamliu avatar Jan 01 '25 05:01 foamliu