lightllm lightllm和vllm性能对比

下面是我在A100-sxm-80G上的测试结果： vllm python -m vllm.entrypoints.api_server --model /code/llama-65b-hf --swap-space 16 --disable-log-requests --tensor-parallel-size 8 python benchmarks/benchmark_serving.py --tokenizer /code/llama-65b-hf --dataset /code/ShareGPT_V3_unfiltered_cleaned_split.json Total time: 312.02 s Throughput: 3.20 requests/s Average latency: 125.45 s Average latency per token: 0.40 s Average latency per output token: 2.10 s

lightllm python -m lightllm.server.api_server --model_dir /code/llama-65b-hf --tp 8 --max_total_token_num 121060 --tokenizer_mode auto python benchmark_serving.py --tokenizer /code/llama-65b-hf --dataset /code/ShareGPT_V3_unfiltered_cleaned_split.json total tokens: 494250 Total time: 333.10 s Throughput: 3.00 requests/s Average latency: 113.86 s Average latency per token: 0.33 s Average latency per output token: 1.54 s

看起来lightllm结果与报告的性能相差很大，可以告诉我是哪里设置错误了吗？谢谢

Sep 04 '23 08:09 Cydia2018

@Cydia2018 是不是这个没有 Fast Tokenizer 呀，你启动服务的时候，打印的warning信息有没有提醒呀。

Sep 04 '23 11:09 hiworldwzj

@hiworldwzj 是的，我没有使用Fast Tokenizer，但是vllm和lightllm都未使用，所以我认为这不是性能差距的主要原因。

Sep 04 '23 12:09 Cydia2018

@Cydia2018 这个max_total_token_num在你这个模型配置下需要重新算个合理值

Sep 04 '23 14:09 hiworldwzj

@hiworldwzj 请告诉我如何计算max_total_token_num的合理区间，方便的话，请直接告诉我你们在测试65b模型的参数设置（数据集相同），谢谢

Sep 05 '23 02:09 Cydia2018

@Cydia2018 https://github.com/ModelTC/lightllm/blob/main/docs/ApiServerArgs.md 这里有介绍。

Sep 05 '23 09:09 hiworldwzj

@hiworldwzj 我在A1000-smx-80G，tp=8，max_total_token_num最大开到193696，吞吐量仍然只有2.98request/s

Sep 07 '23 07:09 Cydia2018

@Cydia2018 ok，我试试你这个配置的性能，一时间确实看不出来问题到底在什么地方。

Sep 07 '23 10:09 hiworldwzj

想請問各位大神~我在python setup.py install輸入進cmd後就沒反應了，請問這要怎麼解決呢?

Sep 24 '23 07:09 wesissonb

@Cydia2018 ok，我试试你这个配置的性能，一时间确实看不出来问题到底在什么地方。

您好，请问就目前来说，针对llama2 70b的多卡推理，lightllm会比vllm的latency性能更高吗，有没有相关的benchmark呢，非常感谢

Dec 19 '23 04:12 Lvjinhong

hi, 请问大家. 在跑 benckmark 时, 有啥好办法安装 vllm 使得 vllm 的相关依赖不影响到 lightllm 吗

Feb 28 '24 10:02 zzb610

@zzb610 用conda 创建两个虚拟环境呢

Feb 29 '24 01:02 hiworldwzj

lightllm lightllm copied to clipboard

lightllm和vllm性能对比

lightllm
lightllm copied to clipboard