kuscia icon indicating copy to clipboard operation
kuscia copied to clipboard

部署MVP后登录tee节点不可用

Open hlysf opened this issue 2 years ago • 17 comments

本机信息:ubuntu 22.04,8VCPU|32GB内存|1.7T本地盘 部署步骤: 解压后,本地ifconfig没有eth0,对install.sh做了以下几处更改: 对查询eth0信息的改为ens5: 149行新增: sed -i '201s/eth0/ens5/' $(pwd)/start_standalone.sh 222行新增: sed -i '279s/eth0/ens5/' $(pwd)/deploy.sh 231行修改: ipv4=$(ip -4 addr show ens5 | grep -oP '(?<=inet\s)\d+(.\d+){3}') || true

运行bash install.sh 报错:[Error] Probe datamesh in container 'zchain-kuscia-lite-tee' failed. image

hlysf avatar Nov 27 '23 02:11 hlysf

hello,mvp版本的是什么版本? 把docker logs zchain-kuscia-lite-tee日志详情发一下。

xiushuiguande avatar Nov 27 '23 02:11 xiushuiguande

MVP版本不知道在哪里看,上周下载的包 secretflow-allinone-package-latest.tar.gz 镜像信息: image

tee日志: image

hlysf avatar Nov 27 '23 02:11 hlysf

你好 在比较新的ubuntu中查询ip的方式为:ip addr show 您可能会看到以"en"开头的名称,如"enp0s1"或者"ens33",这些是新的网络接口名称,麻烦试一下这个ip。

CodePorterL avatar Nov 27 '23 03:11 CodePorterL

麻烦打印一下kuscia里这两个日志:/home/kuscia/var/logs/k3s.log、/home/kuscia/var/logs/kuscia.log

CodePorterL avatar Nov 27 '23 03:11 CodePorterL

@hlysf 截屏2023-11-27 11 44 43 你好可以看下 install.sh 脚本里获取master地址是不是正确的

yujun4464 avatar Nov 27 '23 03:11 yujun4464

kuscia.log

你好,ip是正确的

hlysf avatar Nov 27 '23 06:11 hlysf

麻烦打印一下kuscia里这两个日志:/home/kuscia/var/logs/k3s.log、/home/kuscia/var/logs/kuscia.log

k3s.log: image image image image

kuscia.log image image image image image

hlysf avatar Nov 27 '23 06:11 hlysf

麻烦执行一下以下命令,并把相对应的 stdout 输出

  1. 获取tee容器配置:docker exec -it [tee 容器id] cat etc/kuscia.yaml
  2. 获取主机ip: ifconfig $(ip route | grep default | cut -d" " -f5)

yushiqie avatar Nov 27 '23 09:11 yushiqie

麻烦执行一下以下命令,并把相对应的 stdout 输出

  1. 获取tee容器配置:docker exec -it [tee 容器id] cat etc/kuscia.yaml
  2. 获取主机ip: ifconfig $(ip route | grep default | cut -d" " -f5)

1、tee容器配置 image 2、主机ip image

从贴出的 tee 启动配置中 master 地址是 https://192.169.1.3:8080, 启动的网卡是ens5,ip地址是 10.299.208.32 不一致。需要按照以下方式确认:

  1. 看看修改的脚本网卡是否使用的 ens5
  2. 本地执行 https://10.299.208.32:18080 是否返回 401 http code
  3. 本地是否切换过网络。如果是建议重装,tee节点安装脚本,后期我们将优化

yushiqie avatar Nov 27 '23 09:11 yushiqie

docker logs -f [tee 容器] 看下呢,目前从日志看都是okay的。除了日志,部署有报错吗。如果没有可以在页面上尝试下发tee任务

yushiqie avatar Nov 27 '23 11:11 yushiqie

  1. docker ps
  2. 在主机上执行 https://10.299.208.32:18080 是否返回 401 http code

yushiqie avatar Nov 27 '23 11:11 yushiqie

  1. docker ps
  2. 在主机上执行 https://10.299.208.32:18080 是否返回 401 http code image

1、docker ps image 2、请问有执行命令吗?

主机上访问master地址 curl -kv https://10.299.208.32:18080 是否返回 401 http code

yushiqie avatar Nov 27 '23 12:11 yushiqie

curl -kv https://10.299.208.32:18080

是的。

hlysf avatar Nov 27 '23 12:11 hlysf

可以按照以下方式排查:

  1. 查看master kuscia.log tee相关日志:docker exec -it ${USER}-kuscia-master cat var/logs/kuscia.log | grep tee
  2. 查看master 节点的路由日志: docker exec -it ${USER}-kuscia-master cat var/logs/envoy/external.log | grep tee

yushiqie avatar Nov 27 '23 12:11 yushiqie

2. docker exec -it ${USER}-kuscia-master cat var/logs/envoy/external.log | grep tee

1、master kuscia.log tee相关日志: image 2、master 节点的路由日志筛选没有结果

hlysf avatar Nov 28 '23 00:11 hlysf

  1. 进入tee节点查看配置: docker exec -it ${USER}-lite-tee cat etc/kuscia.yaml
  2. 进入tee节点访问master地址:docker exec -it ${USER}-lite-tee curl -kv https://10.299.208.32:18080

yushiqie avatar Nov 28 '23 03:11 yushiqie

看起来是使用的网卡不对,试试其他active的网址地址呢,按照上面的排查方式

yushiqie avatar Nov 28 '23 03:11 yushiqie