如何多机多卡加载一个模型?
您好,想请教一下,如何多机多卡共同加载一个模型?目前单机的一张卡无法加载大模型,希望模型并行来做推理。vLLM本身具备这样的功能,所以比较好奇这里改怎么设置才可以实现我想要的效果呢?
目前,几台机器xinference已经安装好,也可以共同添加到一个cluster,不知道后面的步骤是什么呢,是设置replica=1就可以了嘛?
vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。
vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。
我觉得也需要支持单卡多模型推理,因为有时候任务分在多个模型上,推理是串行,并不需要并行推理,但是不能部署的话就需要更多的GPU,很浪费,其实就支持单卡多模型部署,性能由项目自己考虑就行
vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。
意思是vLLM本身不适合多机多卡的张量并行推理?那他管道并行的能力怎么样,或者想请教一下,多机多卡共同加载一个大模型这种case,比较推荐的做法是怎么样的呢~
This issue is stale because it has been open for 7 days with no activity.
请问有可以多机多卡部署模型的方法么?
vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。
意思是vLLM本身不适合多机多卡的张量并行推理?那他管道并行的能力怎么样,或者想请教一下,多机多卡共同加载一个大模型这种case,比较推荐的做法是怎么样的呢~
老哥,有答案不?
vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。
意思是vLLM本身不适合多机多卡的张量并行推理?那他管道并行的能力怎么样,或者想请教一下,多机多卡共同加载一个大模型这种case,比较推荐的做法是怎么样的呢~
老哥,有答案不?
多机的话好像管道并行比较好,想要多机跑还是直接用vLLM框架就行
根据vllm那里给我的回复,单节点内张量并行all reduce,节点间pipeline 并行。具体设置方法我还没细看。
根据vllm那里给我的回复,单节点内张量并行all reduce,节点间pipeline 并行。具体设置方法我还没细看。
大佬求教
根据vllm那里给我的回复,单节点内张量并行all reduce,节点间pipeline 并行。具体设置方法我还没细看。
大佬求教
我还没有配置好,我的理解是vllm会更具节点情况自动调用nccl进行配置。
请问有可以多机多卡部署模型的方法么?
试试ray cluster
主要担心是否具备实用价值。
我觉得多机多卡的价值有这几点:
- 单机显存不够的情况,跨机是必要的;
- 单机显存刚好,但是kv cache空间太小,导致max_tokens有限。
主要担心是否具备实用价值。
我觉得多机多卡的价值有这几点:
- 单机显存不够的情况,跨机是必要的;
- 单机显存刚好,但是kv cache空间太小,导致max_tokens有限。
vLLM可以用TP和PP支持,单节点能加载模型可以使用TP,PP跨节点通信性能不好
vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。
我觉得也需要支持单卡多模型推理,因为有时候任务分在多个模型上,推理是串行,并不需要并行推理,但是不能部署的话就需要更多的GPU,很浪费,其实就支持单卡多模型部署,性能由项目自己考虑就行
你好,我想请问xinference中可以单卡多模型部署吗
vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。
我觉得也需要支持单卡多模型推理,因为有时候任务分在多个模型上,推理是串行,并不需要并行推理,但是不能部署的话就需要更多的GPU,很浪费,其实就支持单卡多模型部署,性能由项目自己考虑就行
你好,我想请问xinference中可以单卡多模型部署吗
支持
vLLM 的张量并行如果用多机多卡性能应该非常差吧,我们主要担心是否具备实用价值。
我觉得也需要支持单卡多模型推理,因为有时候任务分在多个模型上,推理是串行,并不需要并行推理,但是不能部署的话就需要更多的GPU,很浪费,其实就支持单卡多模型部署,性能由项目自己考虑就行
你好,我想请问xinference中可以单卡多模型部署吗
支持
你好,请问你是如何使用xinference成功部署多机多卡的?能说一下具体配置吗