KnowStreaming icon indicating copy to clipboard operation
KnowStreaming copied to clipboard

调用Knowstreaming的/metrics/prometheus接口获得的指标中断

Open TinTin-DXQ opened this issue 2 years ago • 1 comments

  • [x] 我已经在 [issues](https://github.com/didi/KnowStreaming/issues) 搜索过相关问题了,并没有重复的。

调用Knowstreaming的/metrics/prometheus接口获得的指标中断

我在使用Grafana+Prometheus调用Knowstreaming的指标接口/metrics/prometheus时,出现了调用接口数据中断的情况,但是查看Knowstreaming上的相关Dashboard并未有中断的情况。

在这个ISSUE 688中,表示如果Knowstreaming页面上指标中断,会对缺失点进行补点吗?

目前Knowstreaming提供的指标的中断情况一天会发生多次,单次持续几小时,是否调用Knowstreaming的/metrics/prometheus接口作为Kafka监控告警的数据源是不合适的?

相关版本:

  • Knowstreaming-manager:0.7.0
  • Knowstreaming-ui:0.7.0
  • Prometheus:v2.22.2
  • Grafana:v9.3.6

场景1:

Knowstreaming中只存在一个Kafka集群时,Grafana隔几个小时会没有监控数据,在NoData状态下手动curl /metrics/prometheus,接口内容中不存在相关指标。

Untitled

Untitled

场景2:

Knowstreaming中存在两个Kafka集群时,Grafana展示的两个集群的监控数据的NoData情况在Dashboard上是互斥的。

Untitled

场景3:

删除Knowstreaming中集群2,调用指标接口/metrics/prometheus,集群2的数据仍然存在,查看mysql数据库中ks_km_broker等相关表也并未删除。

Untitled

Untitled

在以上情况中,Knowstreaming页面指标都是持续的。

Untitled

TinTin-DXQ avatar Mar 02 '23 13:03 TinTin-DXQ

1、集群的规模是?可以看一下日志,看采集超时的日志是否比较多。如果比较多,可以考虑提高采集线程数。 2、元数据未清理的问题,辛苦单独提个Issue,后续我们优化一下,也欢迎贡献PR。

ZQKC avatar Mar 05 '23 03:03 ZQKC