lightllm icon indicating copy to clipboard operation
lightllm copied to clipboard

lightllm和vllm性能对比

Open Cydia2018 opened this issue 1 year ago • 11 comments

下面是我在A100-sxm-80G上的测试结果: vllm python -m vllm.entrypoints.api_server --model /code/llama-65b-hf --swap-space 16 --disable-log-requests --tensor-parallel-size 8 python benchmarks/benchmark_serving.py --tokenizer /code/llama-65b-hf --dataset /code/ShareGPT_V3_unfiltered_cleaned_split.json Total time: 312.02 s Throughput: 3.20 requests/s Average latency: 125.45 s Average latency per token: 0.40 s Average latency per output token: 2.10 s


lightllm python -m lightllm.server.api_server --model_dir /code/llama-65b-hf --tp 8 --max_total_token_num 121060 --tokenizer_mode auto python benchmark_serving.py --tokenizer /code/llama-65b-hf --dataset /code/ShareGPT_V3_unfiltered_cleaned_split.json total tokens: 494250 Total time: 333.10 s Throughput: 3.00 requests/s Average latency: 113.86 s Average latency per token: 0.33 s Average latency per output token: 1.54 s


看起来lightllm结果与报告的性能相差很大,可以告诉我是哪里设置错误了吗?谢谢

Cydia2018 avatar Sep 04 '23 08:09 Cydia2018

@Cydia2018 是不是这个没有 Fast Tokenizer 呀, 你启动服务的时候,打印的warning信息有没有提醒呀。

hiworldwzj avatar Sep 04 '23 11:09 hiworldwzj

@hiworldwzj 是的,我没有使用Fast Tokenizer,但是vllm和lightllm都未使用,所以我认为这不是性能差距的主要原因。

Cydia2018 avatar Sep 04 '23 12:09 Cydia2018

@Cydia2018 这个max_total_token_num在你这个模型配置下需要重新算个合理值

hiworldwzj avatar Sep 04 '23 14:09 hiworldwzj

@hiworldwzj 请告诉我如何计算max_total_token_num的合理区间,方便的话,请直接告诉我你们在测试65b模型的参数设置(数据集相同),谢谢

Cydia2018 avatar Sep 05 '23 02:09 Cydia2018

@Cydia2018 https://github.com/ModelTC/lightllm/blob/main/docs/ApiServerArgs.md 这里有介绍。

hiworldwzj avatar Sep 05 '23 09:09 hiworldwzj

@hiworldwzj 我在A1000-smx-80G,tp=8,max_total_token_num最大开到193696,吞吐量仍然只有2.98request/s

Cydia2018 avatar Sep 07 '23 07:09 Cydia2018

@Cydia2018 ok,我试试你这个配置的性能,一时间确实看不出来问题到底在什么地方。

hiworldwzj avatar Sep 07 '23 10:09 hiworldwzj

想請問各位大神~我在python setup.py install輸入進cmd後就沒反應了,請問這要怎麼解決呢?

wesissonb avatar Sep 24 '23 07:09 wesissonb

@Cydia2018 ok,我试试你这个配置的性能,一时间确实看不出来问题到底在什么地方。

您好,请问就目前来说,针对llama2 70b的多卡推理,lightllm会比vllm的latency性能更高吗,有没有相关的benchmark呢,非常感谢

Lvjinhong avatar Dec 19 '23 04:12 Lvjinhong

hi, 请问大家. 在跑 benckmark 时, 有啥好办法安装 vllm 使得 vllm 的相关依赖不影响到 lightllm 吗

zzb610 avatar Feb 28 '24 10:02 zzb610

@zzb610 用conda 创建两个虚拟环境呢

hiworldwzj avatar Feb 29 '24 01:02 hiworldwzj