请教部署Qwen1.5-72B-int4模型进行压力测试问题

Open Hins opened this issue 1 year ago • 1 comments

我用4张4090部署了Qwen1.5-72B-int4模型，用vllm作为推理框架，对模型进行压力测试。 2并发首字差不多可以在1.5秒内返回。 5并发和10并发，其中2个请求可以在1.5秒内返回，剩余请求都要在5秒甚至10秒后才能返回。观察gpu显存，已经打满了，请问这种情况是否可以优化？

Mar 30 '24 16:03 Hins

同问

Apr 07 '24 03:04 xuexidi