inference 如何多机多卡加载一个模型？

您好，想请教一下，如何多机多卡共同加载一个模型？目前单机的一张卡无法加载大模型，希望模型并行来做推理。vLLM本身具备这样的功能，所以比较好奇这里改怎么设置才可以实现我想要的效果呢？

目前，几台机器xinference已经安装好，也可以共同添加到一个cluster，不知道后面的步骤是什么呢，是设置replica=1就可以了嘛？

Jul 24 '24 05:07 JerryLu991223

vLLM 的张量并行如果用多机多卡性能应该非常差吧，我们主要担心是否具备实用价值。

Jul 24 '24 08:07 qinxuye

vLLM 的张量并行如果用多机多卡性能应该非常差吧，我们主要担心是否具备实用价值。

我觉得也需要支持单卡多模型推理，因为有时候任务分在多个模型上，推理是串行，并不需要并行推理，但是不能部署的话就需要更多的GPU，很浪费，其实就支持单卡多模型部署，性能由项目自己考虑就行

Jul 24 '24 09:07 songpb

vLLM 的张量并行如果用多机多卡性能应该非常差吧，我们主要担心是否具备实用价值。

意思是vLLM本身不适合多机多卡的张量并行推理？那他管道并行的能力怎么样，或者想请教一下，多机多卡共同加载一个大模型这种case，比较推荐的做法是怎么样的呢～

Jul 25 '24 02:07 JerryLu991223

This issue is stale because it has been open for 7 days with no activity.

Aug 02 '24 19:08 github-actions[bot]

请问有可以多机多卡部署模型的方法么？

Aug 26 '24 07:08 Hang-shao

vLLM 的张量并行如果用多机多卡性能应该非常差吧，我们主要担心是否具备实用价值。

意思是vLLM本身不适合多机多卡的张量并行推理？那他管道并行的能力怎么样，或者想请教一下，多机多卡共同加载一个大模型这种case，比较推荐的做法是怎么样的呢～

老哥，有答案不？

Aug 28 '24 06:08 Hang-shao

vLLM 的张量并行如果用多机多卡性能应该非常差吧，我们主要担心是否具备实用价值。

意思是vLLM本身不适合多机多卡的张量并行推理？那他管道并行的能力怎么样，或者想请教一下，多机多卡共同加载一个大模型这种case，比较推荐的做法是怎么样的呢～

老哥，有答案不？

多机的话好像管道并行比较好，想要多机跑还是直接用vLLM框架就行

Sep 03 '24 16:09 JerryLu991223

根据vllm那里给我的回复，单节点内张量并行all reduce，节点间pipeline 并行。具体设置方法我还没细看。

Oct 03 '24 05:10 ilovesouthpark

根据vllm那里给我的回复，单节点内张量并行all reduce，节点间pipeline 并行。具体设置方法我还没细看。

大佬求教

Oct 11 '24 02:10 monk-after-90s

根据vllm那里给我的回复，单节点内张量并行all reduce，节点间pipeline 并行。具体设置方法我还没细看。

大佬求教

我还没有配置好，我的理解是vllm会更具节点情况自动调用nccl进行配置。

Oct 12 '24 04:10 ilovesouthpark

请问有可以多机多卡部署模型的方法么？

试试ray cluster

Nov 08 '24 07:11 paradin

主要担心是否具备实用价值。

我觉得多机多卡的价值有这几点：

单机显存不够的情况，跨机是必要的；
单机显存刚好，但是kv cache空间太小，导致max_tokens有限。

Nov 16 '24 12:11 paradin

主要担心是否具备实用价值。

我觉得多机多卡的价值有这几点：

单机显存不够的情况，跨机是必要的；

单机显存刚好，但是kv cache空间太小，导致max_tokens有限。

vLLM可以用TP和PP支持，单节点能加载模型可以使用TP，PP跨节点通信性能不好

Mar 27 '25 14:03 cquliaoli

vLLM 的张量并行如果用多机多卡性能应该非常差吧，我们主要担心是否具备实用价值。

我觉得也需要支持单卡多模型推理，因为有时候任务分在多个模型上，推理是串行，并不需要并行推理，但是不能部署的话就需要更多的GPU，很浪费，其实就支持单卡多模型部署，性能由项目自己考虑就行

你好，我想请问xinference中可以单卡多模型部署吗

Apr 17 '25 03:04 KOBEBRYANTand

vLLM 的张量并行如果用多机多卡性能应该非常差吧，我们主要担心是否具备实用价值。

我觉得也需要支持单卡多模型推理，因为有时候任务分在多个模型上，推理是串行，并不需要并行推理，但是不能部署的话就需要更多的GPU，很浪费，其实就支持单卡多模型部署，性能由项目自己考虑就行

你好，我想请问xinference中可以单卡多模型部署吗

支持

Apr 17 '25 06:04 leiyang23

vLLM 的张量并行如果用多机多卡性能应该非常差吧，我们主要担心是否具备实用价值。

我觉得也需要支持单卡多模型推理，因为有时候任务分在多个模型上，推理是串行，并不需要并行推理，但是不能部署的话就需要更多的GPU，很浪费，其实就支持单卡多模型部署，性能由项目自己考虑就行

你好，我想请问xinference中可以单卡多模型部署吗

支持

你好，请问你是如何使用xinference成功部署多机多卡的？能说一下具体配置吗

Oct 31 '25 09:10 GavinGaogao