分布式部署时,总是worker等待超时,无法启动QwQ-32B大模型
System Info / 系統信息
如题,分布式部署文档对多个计算节点的网络连接要求描述的不详细,我的两个节点ssh登录正常,防火墙已关闭
Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?
- [ ] docker / docker
- [x] pip install / 通过 pip install 安装
- [ ] installation from source / 从源码安装
Version info / 版本信息
1.4.1
The command used to start Xinference / 用以启动 xinference 的命令
xinference-supervisor -H "${supervisor_host}" xinference-worker -e "http://${supervisor_host}:9997" -H "${worker_host}"
Reproduction / 复现过程
xinference-supervisor -H "${supervisor_host}" xinference-worker -e "http://${supervisor_host}:9997" -H "${worker_host}"
Expected behavior / 期待表现
期望能够分布式启动模型
supervisor 和 worker,以及 worker 之间所有端口必须都互相能联通。
supervisor 和 worker,以及 worker 之间所有端口必须都互相能联通。
请问如何测试保证这一点?有其他服务会占用某些端口,如何解决?
补充一下,worker和supervisor可以正常连接,webui可以显示worker数量和IP,但是2个节点启动大模型时,会出现一个节点等待超时现象
使用sglang分布式部署时,debug信息显示需要设置SGLANG_HOST_IP,在第一个worker节点设置该环境变量即可,界面上怎么设置? 命令启动sglang会出现deadlock,需要设置--disable-cuda-graph,界面上可以直接添加吗?
可以,disable_cuda_graph 为 True
SGLANG_HOST_IP怎么界面上设置?
SGLANG_HOST_IP怎么界面上设置?
这个不行,只能启动 worker 的时候设置。
SGLANG_HOST_IP怎么界面上设置?
这个不行,只能启动 worker 的时候设置。
应该在集群启动文档或者分布式部署文档内容中,说明需要设置SGLANG_HOST_IP和设置方法。
我们没碰到这个问题。这是 sglang 的啥问题?
conda创建的环境,是不是缺少docker镜像的默认环境变量?
This issue is stale because it has been open for 7 days with no activity.
This issue was closed because it has been inactive for 5 days since being marked as stale.