Qwen3
Qwen3 copied to clipboard
请教部署Qwen1.5-72B-int4模型进行压力测试问题
我用4张4090部署了Qwen1.5-72B-int4模型,用vllm作为推理框架,对模型进行压力测试。 2并发首字差不多可以在1.5秒内返回。 5并发和10并发,其中2个请求可以在1.5秒内返回,剩余请求都要在5秒甚至10秒后才能返回。 观察gpu显存,已经打满了,请问这种情况是否可以优化?
同问