Mason
Mason
If you can post your complete command and output here. It seems the script attept to install k3s cluster, is it kubernetes already exists yourself?
Is it your kube config in the default location?
You can retry with `curl -sfL https://raw.githubusercontent.com/OpenCSGs/csghub-installer/refs/heads/main/helm-chart/install.sh | ENABLE_K3S=false bash -s -- ` more defails: - https://github.com/OpenCSGs/csghub-installer/blob/main/helm-chart/README.md - https://github.com/OpenCSGs/csghub-installer/blob/main/docs/en/helm_chart_installation_detail_en.md
最近更新比较多,有点更不过来了,进度稍微有点慢,对于你这里提到的: https://github.com/OpenCSGs/csghub-server/issues/491#issuecomment-3466439033 1. docker 镜像也是因为变更较多,v1.11.0停止更新了,现在正在更新v1.12.0 2. ova 文件也是在更新中,目前更新了 arm64 的,但是amd64 的因为机器问题,有点小问题,目前 amd64 的 ova 回退到了 1.14,最近会更新到1.12 3. helm chart job 执行失败和网络也会有关系,因为仓库的问题,这个问题已经做了优化,你可以重新用快速安装脚本试下,这个脚本昨天将重构的方式更新了,但是文档还没有更新可以看下`curl -sfL http://quick-install.opencsg.com | bash -s -- --domain example.com --install-cn`,其他选项请通过`--help`查看命令帮助...
ova 的方式一直不太推荐,所以更新频率很低,目前比较推荐的方式就是以下: 1. 通过 quick_install 快速安装 2. 直接 helm install 对于你这里提到的 opencsg-registry.cn-beijing.cr.aliyuncs.com/opencsghq/omnibus-csghub:v1.10.0-ce 很多问题,是安装问题还是应用 bug,能否反馈下,感谢
Please ask if this problem has been solved?
I patched daemonset `nvdp-nvidia-device-plugin` with following command: ```shell kubectl -n nvidia-device-plugin patch ds nvdp-nvidia-device-plugin \ --type='json' \ -p='[{"op": "add", "path": "/spec/template/spec/containers/0/args", "value": ["--device-discovery-strategy=tegra"]}]' ``` This is equivalent to manually specifying...
Maybe `--device-discovery-strategy=nvml` is better.
logcollector 默认被禁用了,因为这个组件需要连接到 loki,可以在 runner chart 启用这个组件 ```yaml logcollector: enabled: true loki: address: "/-/loki" ```
> > 1. 检查一下remote runner安装时,logcollector组件是否正常安装运行。 > > 2. 在portal上通过启动和停止按钮,重启一下服务,同时观察pod的状态及logs. > > 3. loki这个服务报了一个permission denied,像是个安装配置的目录没有权限。 > > > > [@MasonXon](https://github.com/MasonXon) 看一下loki的部署权限问题。 > > 1、之前没有开启logcollector > csghub的docker-compose增加了 - '3100:3100' # Loki ,放开端口后更新...