opopnhwth
opopnhwth
根据错误提示和我使用sglang有类似的问题,我的解决办法是在分布式启动时,在第一个worker的节点设置环境变量VLLM_HOST_IP=第一个worker的IP,然后再启动worker。应该就可以了。
> supervisor 和 worker,以及 worker 之间所有端口必须都互相能联通。 请问如何测试保证这一点?有其他服务会占用某些端口,如何解决?
补充一下,worker和supervisor可以正常连接,webui可以显示worker数量和IP,但是2个节点启动大模型时,会出现一个节点等待超时现象
使用sglang分布式部署时,debug信息显示需要设置SGLANG_HOST_IP,在第一个worker节点设置该环境变量即可,界面上怎么设置? 命令启动sglang会出现deadlock,需要设置--disable-cuda-graph,界面上可以直接添加吗?
SGLANG_HOST_IP怎么界面上设置?
> > SGLANG_HOST_IP怎么界面上设置? > > 这个不行,只能启动 worker 的时候设置。 应该在集群启动文档或者分布式部署文档内容中,说明需要设置SGLANG_HOST_IP和设置方法。
conda创建的环境,是不是缺少docker镜像的默认环境变量?