Qwen2.5 关于微调后qwen2-72B-instruct-int4-gptq后的压测和长文本测试

关于微调后qwen2-72B-instruct-int4-gptq后的压测和长文本测试

Open lxb0425 opened this issue 7 months ago • 6 comments

你好我正在使用8张4090做qwen2-72B-instruct-int4-gptq的并发压测和长文本我使用的是vllm部署命令如下 chat-10 是微调后再量化填充后的的版本 python -m vllm.entrypoints.openai.api_server --model /workspace/chat-2.0 --host 0.0.0.0 --port 7864 --tensor-parallel-size 8 --max-model-len 30000 --served-model-name chat-v2.0 --gpu-memory-utilization 0.9

conf.json的yarn配置和不配置都试过了 1 文本输入8000个字单独1个线程没问题响应得36s左右，几个线程就垮了是方式不对吗还是其他原因或者有什么工具可以让我测试吗同时如果使用2张A100会好一些吗,2张A100大概支持长文本的多少并发啊 2 增加了长文本yarn的配置输入34000字符输出200多字就不输出了 3 我应该怎么测试长文本和并发数

Jul 23 '24 03:07 lxb0425

Qwen2.5 Qwen2.5 copied to clipboard

关于微调后qwen2-72B-instruct-int4-gptq后的压测和长文本测试

Qwen2.5
Qwen2.5 copied to clipboard