栾鹏
栾鹏
1、先把rancher镜像拉取下来,省的创建的时候等待久,以为不成功。 2、如果还是有问题,就先sh reset_docker.sh,然后查看docker ps,是否已经清空干净,如果不干净,就重启机器后在reset_docker.sh, docker ps没有容器了才说明清理干净 3、重新执行docker run,如果还是不行,多试几次,还有换大一点的机器,>8核,16G 4、如果已经部署过,但是突然rancher web界面打不开了,日志报等待k3s启动错误,那就按照[单机高可用方案](https://github.com/tencentmusic/cube-studio/wiki/%E4%BD%BF%E7%94%A8rancher%E8%87%AA%E5%BB%BAk8s%E9%9B%86%E7%BE%A4#%E5%8D%95%E8%8A%82%E7%82%B9%E7%9A%84%E9%85%8D%E7%BD%AE%E9%AB%98%E5%8F%AF%E7%94%A8)
katib:命名空间是用来部署所有类型的超参搜索组件 jupyter:命名空间是用来部署用户的notebook和在线docker调试 kfserving:命名空间是用来部署kserver组件(暂未使用) pre-service:命名空间用来部署预发布服务(暂未使用) cert-manager: 用来部署三方证书,新版本不再使用三方证书 logging:用来部署日志采集系统(暂未使用)
这里是提供的基础镜像:https://github.com/tencentmusic/cube-studio/tree/master/images 这里有构建gpu镜像的 方法:https://github.com/tencentmusic/cube-studio/tree/master/images/ubuntu-gpu ``` ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda11.0.3-cudnn8 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda11.0.3-cudnn8-python3.7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda11.0.3-cudnn8-python3.8 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.2-cudnn7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.2-cudnn7-python3.7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.2-cudnn7-python3.8 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.1-cudnn7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.1-cudnn7-python3.6 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.1-cudnn7-python3.7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.1-cudnn7-python3.8 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.0-cudnn7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.0-cudnn7-python3.6 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.0-cudnn7-python3.7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda10.0-cudnn7-python3.8 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda9.1-cudnn7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda9.1-cudnn7-python3.6 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda9.1-cudnn7-python3.7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda9.1-cudnn7-python3.8 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda9.0-cudnn7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda9.0-cudnn7-python3.6 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda9.0-cudnn7-python3.7 ccr.ccs.tencentyun.com/cube-studio/ubuntu-gpu:cuda9.0-cudnn7-python3.8 ccr.ccs.tencentyun.com/cube-studio/gpu:ubuntu18.04-python3.6-cuda10.1-cuda10.0-cuda9.0-cudnn7.6-base ```
这句命令是部署命令。
是的,这个config文件是要自己新建的,把k8s集群的kubeconfig文件内容复制进去
https://github.com/tencentmusic/cube-studio/pull/10 应该是先使用了kubectl命令,但是没有提前下载kubectl工具,这里合并解决了
在平台启动后的notebook里面安装插件是不会被记忆,也不会传播给其他人的,毕竟你的pod重启后环境就丢失了。只能重新构建notebook的镜像。 这里是jupyter的构建镜像:https://github.com/tencentmusic/cube-studio/tree/master/images/jupyter-notebook 这里是vscode的构建镜像:https://github.com/tencentmusic/cube-studio/tree/master/images/theia 如果不知道如何使用dockerfile构建notebook镜像时安装插件。也可以在本地docker run一个 本地的notebook容器,然后本地打开notebook的web,在里面操作,安装插件。最后再 把容器commit成镜像。
内部服务关口和首页本身并没有关系。这里服务的端口也只是pod的端口,本身也不对外暴露,所以这里没有理解到
重启机器,或者重启机器上的docker服务,rancher server这个pod会启动失败,一直报wait k3s start的错误。 试试 单节点高可用的方案:https://github.com/tencentmusic/cube-studio/tree/master/install/kubernetes/rancher
可以进行数据处理、建模、分析的流水线操作,代替airflow的功能。也可以ops的操作流水线。 目前的部署因为包含了大量机器学习相关的基础组件。所以部署起来比较麻烦。 内部在有团队解耦剔除机器学习功能而仅保留编排任务流和云原生调度的功能。 控制台部分是可以docker-compose本地调试启动的。但是云原生的workflow实例运行还是需要k8s。