LLM 推理服务吞吐测试

本仓库包含了测试常见推理服务的吞吐的代码，以及相关的测试结果。

硬件

阿里云 GPU 实例，具体型号为 ecs.gn7i-c32g1.8xlarge。

Llama 2 系列：

Qwen 系列：

Mistral 系列:

benchmark.py 为主要的压测脚本实现，实现了一个 naive 的 asyncio + ProcessPoolExecutor 的压测框架。

在发送请求时，目前基本为不做等待的直接并行发送请求，这可能无法利用好 PagedAttention 的节约显存的特性。在解读结果时可能需要读者注意。

对于不同的模型，Prompt 有一些调整，基本为让模型输出 0 ~ 100 的数字作为 benchmark。

results 文件夹下包含了脚本输出的原始的测试结果数据，可以利用 draw.ipynb 进行绘图。