vllm
vllm copied to clipboard
4块4090部署推理性能问题
Your current environment
python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --max-model-len 8192 --served-model-name chat-v2.0 --model /workspace/chat-v2.0 --enforce-eager --tensor-parallel-size 4
我使用4 4090部署微调后的72b-int4位 响应很慢要十几秒 这是什么原因啊 使用1 A100响应还可以 还发现使用2张4090也能跑起来比4张卡块但是一段时间内没有响应
How would you like to use vllm
I want to run inference of a [specific model](put link here). I don't know how to integrate it with vllm.