栾鹏
栾鹏
已经支持了快速单机部署方法,可以体验下。https://github.com/tencentmusic/cube-studio/tree/master/install/kubernetes 中的单机测试部分
notebook的镜像和显示,都是在config.py文件里面配置的。 NOTEBOOK_IMAGES=[ ['ccr.ccs.tencentyun.com/cube-studio/notebook:vscode-ubuntu-cpu-base', 'vscode(cpu)'], ['ccr.ccs.tencentyun.com/cube-studio/notebook:vscode-ubuntu-gpu-base', 'vscode(gpu)'], ['ccr.ccs.tencentyun.com/cube-studio/notebook:jupyter-ubuntu-cpu-base', 'jupyter(cpu)'], ['ccr.ccs.tencentyun.com/cube-studio/notebook:jupyter-ubuntu-gpu-base','jupyter(gpu)'], ['ccr.ccs.tencentyun.com/cube-studio/notebook:jupyter-ubuntu-cpu-1.0.0', 'jupyter(tensorboard)'], ] 在这里面可以添加修改自己的notebook镜像,但是要注意名称中记得携带vscode和jupyter的字眼,因为在代码中识别字符串决定镜像的启动方式, 在k8s中config.py被创建为infra命名空间下kubeflow-dashboard-config的configmap,需要修改后更新到这里或者,直接修改这里。 修改后重启dashboard的pod就可以了
集群能调度gpu节点,需要几个层次的支持。 1、gpu机器上gpu驱动的正常安装,能在机器上nvidia-smi 出现gpu卡的信息 2、docker-nvidia2的正常安装,不能用最新版的gpu docker 的方式,因为k8s还不支持,所以目前必须要docker-nvidia2。并且配置好docker的配置信息,参考https://github.com/tencentmusic/cube-studio/blob/master/install/kubernetes/rancher/init_node_gpu.sh 3、在k8s中安装好nvidia-device-plugin,或者安装vgpu的插件,并且在机器上添加gpu标签。gpu=true,gpu-type=xx,xx是用来 表示gpu卡的类型,比如xx为V100,T4之类, 这样就能在k8s中申请gpu了。参考:https://github.com/tencentmusic/cube-studio/tree/master/install/kubernetes/gpu 4、这样就可以在界面上申请gpu算力了,并且支持异构gpu环境的占用,比如占用1张V100,,可以写申请gpu大小那里写:1(V100)
rancher里面是这样修改的
grafana 可以看到界面包含了几个地方的功能需要: 1、每个机器的采集器是否正常 包含node-export/dcgm-exporter(gpu) 2、prometheus是否正常,可以在prometheus里面看数据是否正常 3、查看grafana是否正常,主要是看板的配置 4、最后是网关带来了grafana的url访问 从你的截图里面看,应该grafana链接不上prometheus,所以怀疑是你的prometheus未正常启动
commit 0b6b2aa03dadbf90e42cba02f853a69d93d5c40e 修复了这个问题
1、有可能镜像不全,那样就得拉取镜像,所以先把镜像拉取完整 ``` # 清理历史部署痕迹 reset_docker.sh # 需要拉取镜像 python3 all_image.py > pull_rancher_images.sh sh pull_rancher_images.sh export RANCHER_CONTAINER_TAG=v2.5.2 sudo docker run -d --privileged --restart=unless-stopped -p 443:443 --privileged --name=myrancher -e AUDIT_LEVEL=3 rancher/rancher:$RANCHER_CONTAINER_TAG ``` 2、有可能docker上的容器有问题,reset_docker...
start.sh 是在当前k8s集群部署 cube平台的。 如果还是在同一个k8s集群,只是增加了机器,是不需要再执行start.sh的。只需要把机器加入到已经存在的k8s集群就行了
> 所以 我理解多机部署是在单机部署基础上,扩容新的节点,实现多机部署。 是的
一般报错显示 cert-manger报错是因为需要部署的k8s的kube-api添加启动参数。参考https://github.com/tencentmusic/cube-studio/tree/master/install/kubernetes/kubeflow/v1.2.0