efficient-attention-architectures topic

List efficient-attention-architectures repositories

200

Stars

Forks

200

Watchers

Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs