oneflow
oneflow copied to clipboard
请问oneflow支持的分布式训练是否有k8s部署的方式
是否提供k8s下的operator支持oneflow的分布式训练任务的部署?
oneflow 在k8s上部署的方式和tensorflow, pytorch 在k8s上部署的方式是一样的。
目前我们还没有开发k8s operator,之前倒是通过开发一个CRD 实现了在k8s上部署,在 https://oneflow.cloud/ 这里可以体验
我们讨论讨论开发k8s operator的可行性
oneflow 在k8s上部署的方式和tensorflow, pytorch 在k8s上部署的方式是一样的。
目前我们还没有开发k8s operator,之前倒是通过开发一个CRD 实现了在k8s上部署,在 https://oneflow.cloud/ 这里可以体验
我们讨论讨论开发k8s operator的可行性
operator就是CRD的进一步封装。请问哪里有这个CRD,能发一下链接吗?
这个CRD还没有开源,我同事做一些准备把代码和文档公布到github上
分布式 oneflow 的使用方式和pytorch 非常接近,使用方式见: https://docs.oneflow.org/master/parallelism/04_launch.html
如果开发过pytorch operator,理论上应该差不多