efficient-llm-inference topic

List efficient-llm-inference repositories

348

Stars

Forks

Watchers

[ICML 2024] CLLMs: Consistency Large Language Models

Stars

Forks

Watchers

Pytorch implementation for "Compressed Context Memory For Online Language Model Interaction" (ICLR'24)