dinky icon indicating copy to clipboard operation
dinky copied to clipboard

[Bug] [运维中心] 在dinky正常运行,作业发布后,如果作业一直running,但是flink集群关闭情况下,运维中心重启后获取到作业状态一直running

Open qzgt opened this issue 2 years ago • 7 comments

Search before asking

  • [X] I had searched in the issues and found no similar issues.

What happened

在dinky正常运行,作业发布后,如果作业状态一直running,但是flink集群关闭情况下,运维中心重启后获取到作业状态一直running。

What you expected to happen

希望运维中心的状态根据实时的进行,同时支持以dinky端数据为主,即如果dinky原来的作业状态为running状态,但是flink集群没有对应job或者已经关闭,那么dinky可以自动重启一个job。

How to reproduce

直接在dinky-admin web端提交任务,然后直接关闭flink集群,然后重新启动dinky就可以复现。

Anything else

No response

Version

0.6.5

Are you willing to submit PR?

  • [ ] Yes I am willing to submit a PR!

Code of Conduct

qzgt avatar Jul 07 '22 10:07 qzgt

请附截图

aiwenmo avatar Jul 07 '22 15:07 aiwenmo

+1

JerryLen avatar Jul 10 '22 14:07 JerryLen

请附截图

截图如下:

微信截图_20220711103914 微信截图_20220711103936

qzgt avatar Jul 11 '22 02:07 qzgt

这是正常的,因为由于意外原因无法请求到jobmanager,所以无法获取最新的算子状态,默认不更新,即还是RUNNING。

aiwenmo avatar Jul 11 '22 06:07 aiwenmo

意外原因无法请求到jobmanager,个人认为默认更新为UNKNOWN可能更合理些,是希望平台能够管理监控任务的,变为UNKNOWN告警好去检查异常

JerryLen avatar Jul 11 '22 13:07 JerryLen

任务实例状态已经更新为 UNKNOWN 了

aiwenmo avatar Jul 12 '22 06:07 aiwenmo

我认为job instance的状态 和job history的状态应该保持一致才对,不然会出现状态不一致导致用户出现迷惑

chen5306514 avatar Jul 19 '22 08:07 chen5306514

  • [X] #1278

aiwenmo avatar Nov 19 '22 14:11 aiwenmo