Qwen3 icon indicating copy to clipboard operation
Qwen3 copied to clipboard

请教部署Qwen1.5-72B-int4模型进行压力测试问题

Open Hins opened this issue 1 year ago • 1 comments

我用4张4090部署了Qwen1.5-72B-int4模型,用vllm作为推理框架,对模型进行压力测试。 2并发首字差不多可以在1.5秒内返回。 5并发和10并发,其中2个请求可以在1.5秒内返回,剩余请求都要在5秒甚至10秒后才能返回。 观察gpu显存,已经打满了,请问这种情况是否可以优化?

Hins avatar Mar 30 '24 16:03 Hins

同问

xuexidi avatar Apr 07 '24 03:04 xuexidi