inference 分布式部署时，总是worker等待超时，无法启动QwQ-32B大模型

如题，分布式部署文档对多个计算节点的网络连接要求描述的不详细，我的两个节点ssh登录正常，防火墙已关闭

1.4.1

xinference-supervisor -H "${supervisor_host}" xinference-worker -e "http://${supervisor_host}:9997" -H "${worker_host}"

xinference-supervisor -H "${supervisor_host}" xinference-worker -e "http://${supervisor_host}:9997" -H "${worker_host}"

期望能够分布式启动模型

Apr 17 '25 12:04 opopnhwth

supervisor 和 worker，以及 worker 之间所有端口必须都互相能联通。

Apr 17 '25 12:04 qinxuye

supervisor 和 worker，以及 worker 之间所有端口必须都互相能联通。

请问如何测试保证这一点？有其他服务会占用某些端口，如何解决？

Apr 17 '25 13:04 opopnhwth

补充一下，worker和supervisor可以正常连接，webui可以显示worker数量和IP，但是2个节点启动大模型时，会出现一个节点等待超时现象

Apr 18 '25 01:04 opopnhwth

使用sglang分布式部署时，debug信息显示需要设置SGLANG_HOST_IP，在第一个worker节点设置该环境变量即可，界面上怎么设置？命令启动sglang会出现deadlock，需要设置--disable-cuda-graph，界面上可以直接添加吗？

Apr 19 '25 12:04 opopnhwth

可以，disable_cuda_graph 为 True

Apr 19 '25 12:04 qinxuye

SGLANG_HOST_IP怎么界面上设置？

Apr 19 '25 12:04 opopnhwth

SGLANG_HOST_IP怎么界面上设置？

这个不行，只能启动 worker 的时候设置。

Apr 19 '25 13:04 qinxuye

SGLANG_HOST_IP怎么界面上设置？

这个不行，只能启动 worker 的时候设置。

应该在集群启动文档或者分布式部署文档内容中，说明需要设置SGLANG_HOST_IP和设置方法。

Apr 19 '25 14:04 opopnhwth

我们没碰到这个问题。这是 sglang 的啥问题？

Apr 19 '25 14:04 qinxuye

conda创建的环境，是不是缺少docker镜像的默认环境变量？

Apr 22 '25 12:04 opopnhwth

This issue is stale because it has been open for 7 days with no activity.

Apr 29 '25 19:04 github-actions[bot]

This issue was closed because it has been inactive for 5 days since being marked as stale.

May 04 '25 19:05 github-actions[bot]