Qwen2.5
Qwen2.5 copied to clipboard
关于微调后qwen2-72B-instruct-int4-gptq后的压测和长文本测试
你好 我正在使用8张4090做qwen2-72B-instruct-int4-gptq的并发压测和长文本 我使用的是vllm部署 命令如下 chat-10 是微调后再量化填充后的的版本 python -m vllm.entrypoints.openai.api_server --model /workspace/chat-2.0 --host 0.0.0.0 --port 7864 --tensor-parallel-size 8 --max-model-len 30000 --served-model-name chat-v2.0 --gpu-memory-utilization 0.9
conf.json的yarn配置和不配置都试过了 1 文本输入8000个字 单独1个线程没问题 响应得36s左右,几个线程就垮了 是方式不对吗还是其他原因 或者有什么工具可以让我测试吗 同时如果使用2张A100会好一些吗,2张A100大概支持长文本的多少并发啊 2 增加了长文本yarn的配置 输入34000字符 输出200多字就不输出了 3 我应该怎么测试长文本和并发数