栾鹏

Results 64 comments of 栾鹏
trafficstars

pv和pvc的自定绑定有几个配置控制。 1、pvc中selector与pv的label相互对应,pv的大小满足pvc的大小需求,这个在开源方案里面是配置好的。 2、重新部署时pv的状态,是不是available状态。不然pvc无法绑定到pv上,需要删除pv中心部署pv 3、部分平台上会自动在pvc中自动添加storage class,造成pv不适配pvc,需要在pv中也添加相同storage class

这个是在项目组中添加了服务代理ip时出现的问题 修复了这个问题。 # commit ad855c4a063bb78227fca40a3a7750356cc990f5

不要使用tme-dev版本,使用最新的master分支。 外部或内部仓库更换,主要体现在几个方面的更新。 1、平台基础组件镜像仓库更新。可以拉取最新代码install/kubernetes/下 ``` pull_image_kubeflow.sh kubectl delete -k cube/overlays kubectl apply -k cube/overlays ``` 2、平台发起的调度pod的镜像的更新,比如训练/notebook的镜像更新。同上第一步的更新配置已经更新了,但是还存在存量msyql元数据中的镜像的更新,可以进入数据库,手动批量修改其中的镜像。比如把仓库 ai.tencentmusic.com/tme-public/ 换成 ccr.ccs.tencentyun.com/cube-studio/ ``` UPDATE docker SET base_image = replace (base_image,'ai.tencentmusic.com/tme-public','ccr.ccs.tencentyun.com/cube-studio') WHERE args LIKE '%tencentmusic%'...

现在平台里面: 1、平台需要的中间件一般已经设置为IfNotPresent, 2、对于可能需要更新的部分,比如web前后的镜像、任务模板镜像,这种在开发时可能会持续更新的镜像使用的拉取策略Always 对于不想持续拉取或者内网环境,要么把持续拉取的镜像名改为内网镜像名,要么把拉取策略改为IfNotPresent。 1、如果是部署组件可以通过部署后修改yaml文件来解决 2、如果平台在运行中发起的调度,比如notebook/task/service等pod,可以在py代码里面全局搜索一下imagePullPolicy,把对应的值改为IfNotPresent,只不过这样要手动处理下镜像更新后,主机镜像更新的问题

https://本机ip 是rancher界面 http://本机ip 是cube界面 只暴露一个服务,istio-system命名空间的istio-ingressgateway服务。

可以手动做一遍历史任务的清理 ``` 删除旧的训练任务 kubectl get workflow -n pipeline | awk '{print $1}' | xargs kubectl delete workflow --force --grace-period=0 -n pipeline kubectl get tfjob -n pipeline | awk '{print $1}'...

https://github.com/tencentmusic/cube-studio/wiki

组件说明: https://github.com/tencentmusic/cube-studio/wiki/%E5%9F%BA%E7%A1%80%E7%BB%84%E4%BB%B6%E4%BB%8B%E7%BB%8D

目前已经支持到k8s 1.21,1.22