dlrover icon indicating copy to clipboard operation
dlrover copied to clipboard

部署elasticjob-controller时,发现节点反复重启

Open yifeng-x opened this issue 7 months ago • 10 comments

查看pod日志,报错如下,提示ScalePlan CRD未配置,看代码提交,两周前去除了ScalePlan。

Image

yifeng-x avatar Apr 08 '25 03:04 yifeng-x

应该是镜像问题,你可以自己重新build 一个新镜像。用老镜像会报这个。

workingloong avatar Apr 08 '25 09:04 workingloong

还想了解下为什么要去除ScalePlan CRD呢

yifeng-x avatar Apr 09 '25 01:04 yifeng-x

麻烦帮忙看下1517那个issue

yifeng-x avatar Apr 09 '25 01:04 yifeng-x

还想了解下为什么要去除ScalePlan CRD呢

其实 ScalePlan CRD 一直没用到。

workingloong avatar Apr 09 '25 08:04 workingloong

@BalaBalaYi 帮忙把 dockerhub 上的 controller 镜像更新下,我没有docker repo 的权限了。

workingloong avatar Apr 09 '25 08:04 workingloong

在部署时,发现节点反复重启,查看日志显示:exec /manager: exec format error,请问下这个怎么处理

yifeng-x avatar Apr 10 '25 09:04 yifeng-x

在部署时,发现节点反复重启,查看日志显示:exec /manager: exec format error,请问下这个怎么处理

还是找不到 scaleplan 这个 CRD 吗?

workingloong avatar Apr 11 '25 07:04 workingloong

我用了之前的版本,没有找不到 scaleplan 这个 CRD的报错了,出现的exec /manager:exec format error这个报错,是不是因为系统架构是arm64,用的镜像是amd64的导致的

yifeng-x avatar Apr 11 '25 07:04 yifeng-x

你们能不能提供一些支持arm64的基础镜像,我看docker hub中elasticjob-controller:master这个镜像是arm64,但是在arm64机器上使用启动pod的时候,看日志就提示exec /manager:exec format error这个报错,我在amd64的机器上使用的时候是没问题的,是不是标记错了

yifeng-x avatar Apr 11 '25 07:04 yifeng-x

@samplise

BalaBalaYi avatar Apr 30 '25 02:04 BalaBalaYi

https://github.com/intelligent-machine-learning/dlrover/pull/1561

BalaBalaYi avatar Jun 06 '25 05:06 BalaBalaYi