oneflow icon indicating copy to clipboard operation
oneflow copied to clipboard

请问oneflow支持的分布式训练是否有k8s部署的方式

Open andyzheung opened this issue 2 years ago • 3 comments

是否提供k8s下的operator支持oneflow的分布式训练任务的部署?

andyzheung avatar Jul 21 '22 06:07 andyzheung

oneflow 在k8s上部署的方式和tensorflow, pytorch 在k8s上部署的方式是一样的。

目前我们还没有开发k8s operator,之前倒是通过开发一个CRD 实现了在k8s上部署,在 https://oneflow.cloud/ 这里可以体验

我们讨论讨论开发k8s operator的可行性

yuanms2 avatar Jul 21 '22 06:07 yuanms2

oneflow 在k8s上部署的方式和tensorflow, pytorch 在k8s上部署的方式是一样的。

目前我们还没有开发k8s operator,之前倒是通过开发一个CRD 实现了在k8s上部署,在 https://oneflow.cloud/ 这里可以体验

我们讨论讨论开发k8s operator的可行性

operator就是CRD的进一步封装。请问哪里有这个CRD,能发一下链接吗?

andyzheung avatar Jul 21 '22 06:07 andyzheung

这个CRD还没有开源,我同事做一些准备把代码和文档公布到github上

分布式 oneflow 的使用方式和pytorch 非常接近,使用方式见: https://docs.oneflow.org/master/parallelism/04_launch.html

如果开发过pytorch operator,理论上应该差不多

yuanms2 avatar Jul 21 '22 06:07 yuanms2