InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

vllm部署internvl2.5 cpu占用率高影响推理速度的问题

Open Lcx2000 opened this issue 1 month ago • 0 comments

环境: vllm 0.9.1 torch 2.7.0+cu126 transformers 4.53.2 L4卡部署internvl2.5 1B模型 cpu Intel(R) Xeon(R) Platinum 8358 CPU @ 2.60GHz CPU max MHz: 3400

部署代码: python -m vllm.entrypoints.openai.api_server --served-model-name internvl2_5 --model internvl2_5_1B
--tensor-parallel-size 1
--gpu-memory-utilization 0.9
--port 9084 --trust-remote-code
--max_model_len 2432
--max_num_seqs 2
--max_num_batched_tokens 4864

cpu占用率超级高,限制cpu为4(1200ms)的时间是不限制cpu(400ms)时间的三倍,性能瓶颈严重,请问问题应该怎么解决?

Lcx2000 avatar Nov 10 '25 11:11 Lcx2000