inference icon indicating copy to clipboard operation
inference copied to clipboard

如何多机多卡加载一个模型?

Open JerryLu991223 opened this issue 1 year ago • 16 comments

您好,想请教一下,如何多机多卡共同加载一个模型?目前单机的一张卡无法加载大模型,希望模型并行来做推理。vLLM本身具备这样的功能,所以比较好奇这里改怎么设置才可以实现我想要的效果呢?

目前,几台机器xinference已经安装好,也可以共同添加到一个cluster,不知道后面的步骤是什么呢,是设置replica=1就可以了嘛?

JerryLu991223 avatar Jul 24 '24 05:07 JerryLu991223

vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。

qinxuye avatar Jul 24 '24 08:07 qinxuye

vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。

我觉得也需要支持单卡多模型推理,因为有时候任务分在多个模型上,推理是串行,并不需要并行推理,但是不能部署的话就需要更多的GPU,很浪费,其实就支持单卡多模型部署,性能由项目自己考虑就行

songpb avatar Jul 24 '24 09:07 songpb

vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。

意思是vLLM本身不适合多机多卡的张量并行推理?那他管道并行的能力怎么样,或者想请教一下,多机多卡共同加载一个大模型这种case,比较推荐的做法是怎么样的呢~

JerryLu991223 avatar Jul 25 '24 02:07 JerryLu991223

This issue is stale because it has been open for 7 days with no activity.

github-actions[bot] avatar Aug 02 '24 19:08 github-actions[bot]

请问有可以多机多卡部署模型的方法么?

Hang-shao avatar Aug 26 '24 07:08 Hang-shao

vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。

意思是vLLM本身不适合多机多卡的张量并行推理?那他管道并行的能力怎么样,或者想请教一下,多机多卡共同加载一个大模型这种case,比较推荐的做法是怎么样的呢~

老哥,有答案不?

Hang-shao avatar Aug 28 '24 06:08 Hang-shao

vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。

意思是vLLM本身不适合多机多卡的张量并行推理?那他管道并行的能力怎么样,或者想请教一下,多机多卡共同加载一个大模型这种case,比较推荐的做法是怎么样的呢~

老哥,有答案不?

多机的话好像管道并行比较好,想要多机跑还是直接用vLLM框架就行

JerryLu991223 avatar Sep 03 '24 16:09 JerryLu991223

根据vllm那里给我的回复,单节点内张量并行all reduce,节点间pipeline 并行。具体设置方法我还没细看。

ilovesouthpark avatar Oct 03 '24 05:10 ilovesouthpark

根据vllm那里给我的回复,单节点内张量并行all reduce,节点间pipeline 并行。具体设置方法我还没细看。

大佬求教

monk-after-90s avatar Oct 11 '24 02:10 monk-after-90s

根据vllm那里给我的回复,单节点内张量并行all reduce,节点间pipeline 并行。具体设置方法我还没细看。

大佬求教

我还没有配置好,我的理解是vllm会更具节点情况自动调用nccl进行配置。

ilovesouthpark avatar Oct 12 '24 04:10 ilovesouthpark

请问有可以多机多卡部署模型的方法么?

试试ray cluster

paradin avatar Nov 08 '24 07:11 paradin

主要担心是否具备实用价值。

我觉得多机多卡的价值有这几点:

  1. 单机显存不够的情况,跨机是必要的;
  2. 单机显存刚好,但是kv cache空间太小,导致max_tokens有限。

paradin avatar Nov 16 '24 12:11 paradin

主要担心是否具备实用价值。

我觉得多机多卡的价值有这几点:

  1. 单机显存不够的情况,跨机是必要的;
  2. 单机显存刚好,但是kv cache空间太小,导致max_tokens有限。

vLLM可以用TP和PP支持,单节点能加载模型可以使用TP,PP跨节点通信性能不好

cquliaoli avatar Mar 27 '25 14:03 cquliaoli

vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。

我觉得也需要支持单卡多模型推理,因为有时候任务分在多个模型上,推理是串行,并不需要并行推理,但是不能部署的话就需要更多的GPU,很浪费,其实就支持单卡多模型部署,性能由项目自己考虑就行

你好,我想请问xinference中可以单卡多模型部署吗

KOBEBRYANTand avatar Apr 17 '25 03:04 KOBEBRYANTand

vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。

我觉得也需要支持单卡多模型推理,因为有时候任务分在多个模型上,推理是串行,并不需要并行推理,但是不能部署的话就需要更多的GPU,很浪费,其实就支持单卡多模型部署,性能由项目自己考虑就行

你好,我想请问xinference中可以单卡多模型部署吗

支持

leiyang23 avatar Apr 17 '25 06:04 leiyang23

vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。

我觉得也需要支持单卡多模型推理,因为有时候任务分在多个模型上,推理是串行,并不需要并行推理,但是不能部署的话就需要更多的GPU,很浪费,其实就支持单卡多模型部署,性能由项目自己考虑就行

你好,我想请问xinference中可以单卡多模型部署吗

支持

你好,请问你是如何使用xinference成功部署多机多卡的?能说一下具体配置吗

GavinGaogao avatar Oct 31 '25 09:10 GavinGaogao