栾鹏 comments

Results 64 comments of


                                            栾鹏

trafficstars

能否有一个一键部署的docker compse

已经支持了快速单机部署方法，可以体验下。https://github.com/tencentmusic/cube-studio/tree/master/install/kubernetes 中的单机测试部分

notebook的镜像和显示，都是在config.py文件里面配置的。 NOTEBOOK_IMAGES=[ ['ccr.ccs.tencentyun.com/cube-studio/notebook:vscode-ubuntu-cpu-base', 'vscode（cpu）'], ['ccr.ccs.tencentyun.com/cube-studio/notebook:vscode-ubuntu-gpu-base', 'vscode（gpu）'], ['ccr.ccs.tencentyun.com/cube-studio/notebook:jupyter-ubuntu-cpu-base', 'jupyter（cpu）'], ['ccr.ccs.tencentyun.com/cube-studio/notebook:jupyter-ubuntu-gpu-base','jupyter（gpu）'], ['ccr.ccs.tencentyun.com/cube-studio/notebook:jupyter-ubuntu-cpu-1.0.0', 'jupyter（tensorboard）'], ] 在这里面可以添加修改自己的notebook镜像，但是要注意名称中记得携带vscode和jupyter的字眼，因为在代码中识别字符串决定镜像的启动方式，在k8s中config.py被创建为infra命名空间下kubeflow-dashboard-config的configmap，需要修改后更新到这里或者，直接修改这里。修改后重启dashboard的pod就可以了

怎么支持gpu机器加入集群，能被正常调度

集群能调度gpu节点，需要几个层次的支持。 1、gpu机器上gpu驱动的正常安装，能在机器上nvidia-smi 出现gpu卡的信息 2、docker-nvidia2的正常安装，不能用最新版的gpu docker 的方式，因为k8s还不支持，所以目前必须要docker-nvidia2。并且配置好docker的配置信息，参考https://github.com/tencentmusic/cube-studio/blob/master/install/kubernetes/rancher/init_node_gpu.sh 3、在k8s中安装好nvidia-device-plugin，或者安装vgpu的插件，并且在机器上添加gpu标签。gpu=true,gpu-type=xx，xx是用来表示gpu卡的类型，比如xx为V100，T4之类，这样就能在k8s中申请gpu了。参考：https://github.com/tencentmusic/cube-studio/tree/master/install/kubernetes/gpu 4、这样就可以在界面上申请gpu算力了，并且支持异构gpu环境的占用，比如占用1张V100,，可以写申请gpu大小那里写：1(V100)

！！metric-server默认镜像拉取是Always，然后在rancher中修改不动yaml文件是怎么回事？

rancher里面是这样修改的

Grafana模块监控异常

grafana 可以看到界面包含了几个地方的功能需要： 1、每个机器的采集器是否正常包含node-export/dcgm-exporter(gpu) 2、prometheus是否正常，可以在prometheus里面看数据是否正常 3、查看grafana是否正常，主要是看板的配置 4、最后是网关带来了grafana的url访问从你的截图里面看，应该grafana链接不上prometheus，所以怀疑是你的prometheus未正常启动

Grafana模块监控异常

commit 0b6b2aa03dadbf90e42cba02f853a69d93d5c40e 修复了这个问题

rancher部署的时候不成功，等了很久一直失败

1、有可能镜像不全，那样就得拉取镜像，所以先把镜像拉取完整 ``` # 清理历史部署痕迹 reset_docker.sh # 需要拉取镜像 python3 all_image.py > pull_rancher_images.sh sh pull_rancher_images.sh export RANCHER_CONTAINER_TAG=v2.5.2 sudo docker run -d --privileged --restart=unless-stopped -p 443:443 --privileged --name=myrancher -e AUDIT_LEVEL=3 rancher/rancher:$RANCHER_CONTAINER_TAG ``` 2、有可能docker上的容器有问题，reset_docker...

栾鹏

能否有一个一键部署的docker compse

如何修改notebook的镜像

怎么支持gpu机器加入集群，能被正常调度

！！metric-server默认镜像拉取是Always，然后在rancher中修改不动yaml文件是怎么回事？

Grafana模块监控异常

Grafana模块监控异常

rancher部署的时候不成功，等了很久一直失败

请问，多机器部署的时候，worker需不需要运行start.sh？

请问，多机器部署的时候，worker需不需要运行start.sh？

部署以后，cert-manager pod 不正常，所以istio的pod组件缺少挂载