inference icon indicating copy to clipboard operation
inference copied to clipboard

分布式部署时,总是worker等待超时,无法启动QwQ-32B大模型

Open opopnhwth opened this issue 8 months ago • 10 comments

System Info / 系統信息

如题,分布式部署文档对多个计算节点的网络连接要求描述的不详细,我的两个节点ssh登录正常,防火墙已关闭

Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?

  • [ ] docker / docker
  • [x] pip install / 通过 pip install 安装
  • [ ] installation from source / 从源码安装

Version info / 版本信息

1.4.1

The command used to start Xinference / 用以启动 xinference 的命令

xinference-supervisor -H "${supervisor_host}" xinference-worker -e "http://${supervisor_host}:9997" -H "${worker_host}"

Reproduction / 复现过程

xinference-supervisor -H "${supervisor_host}" xinference-worker -e "http://${supervisor_host}:9997" -H "${worker_host}"

Expected behavior / 期待表现

期望能够分布式启动模型

opopnhwth avatar Apr 17 '25 12:04 opopnhwth

supervisor 和 worker,以及 worker 之间所有端口必须都互相能联通。

qinxuye avatar Apr 17 '25 12:04 qinxuye

supervisor 和 worker,以及 worker 之间所有端口必须都互相能联通。

请问如何测试保证这一点?有其他服务会占用某些端口,如何解决?

opopnhwth avatar Apr 17 '25 13:04 opopnhwth

补充一下,worker和supervisor可以正常连接,webui可以显示worker数量和IP,但是2个节点启动大模型时,会出现一个节点等待超时现象

opopnhwth avatar Apr 18 '25 01:04 opopnhwth

使用sglang分布式部署时,debug信息显示需要设置SGLANG_HOST_IP,在第一个worker节点设置该环境变量即可,界面上怎么设置? 命令启动sglang会出现deadlock,需要设置--disable-cuda-graph,界面上可以直接添加吗?

opopnhwth avatar Apr 19 '25 12:04 opopnhwth

可以,disable_cuda_graph 为 True

qinxuye avatar Apr 19 '25 12:04 qinxuye

SGLANG_HOST_IP怎么界面上设置?

opopnhwth avatar Apr 19 '25 12:04 opopnhwth

SGLANG_HOST_IP怎么界面上设置?

这个不行,只能启动 worker 的时候设置。

qinxuye avatar Apr 19 '25 13:04 qinxuye

SGLANG_HOST_IP怎么界面上设置?

这个不行,只能启动 worker 的时候设置。

应该在集群启动文档或者分布式部署文档内容中,说明需要设置SGLANG_HOST_IP和设置方法。

opopnhwth avatar Apr 19 '25 14:04 opopnhwth

我们没碰到这个问题。这是 sglang 的啥问题?

qinxuye avatar Apr 19 '25 14:04 qinxuye

conda创建的环境,是不是缺少docker镜像的默认环境变量?

opopnhwth avatar Apr 22 '25 12:04 opopnhwth

This issue is stale because it has been open for 7 days with no activity.

github-actions[bot] avatar Apr 29 '25 19:04 github-actions[bot]

This issue was closed because it has been inactive for 5 days since being marked as stale.

github-actions[bot] avatar May 04 '25 19:05 github-actions[bot]