KnowStreaming
KnowStreaming copied to clipboard
调用Knowstreaming的/metrics/prometheus接口获得的指标中断
- [x] 我已经在 [issues](https://github.com/didi/KnowStreaming/issues) 搜索过相关问题了,并没有重复的。
调用Knowstreaming的/metrics/prometheus接口获得的指标中断
我在使用Grafana+Prometheus调用Knowstreaming的指标接口/metrics/prometheus时,出现了调用接口数据中断的情况,但是查看Knowstreaming上的相关Dashboard并未有中断的情况。
在这个ISSUE 688中,表示如果Knowstreaming页面上指标中断,会对缺失点进行补点吗?
目前Knowstreaming提供的指标的中断情况一天会发生多次,单次持续几小时,是否调用Knowstreaming的/metrics/prometheus接口作为Kafka监控告警的数据源是不合适的?
相关版本:
- Knowstreaming-manager:0.7.0
- Knowstreaming-ui:0.7.0
- Prometheus:v2.22.2
- Grafana:v9.3.6
场景1:
Knowstreaming中只存在一个Kafka集群时,Grafana隔几个小时会没有监控数据,在NoData状态下手动curl /metrics/prometheus,接口内容中不存在相关指标。


场景2:
Knowstreaming中存在两个Kafka集群时,Grafana展示的两个集群的监控数据的NoData情况在Dashboard上是互斥的。

场景3:
删除Knowstreaming中集群2,调用指标接口/metrics/prometheus,集群2的数据仍然存在,查看mysql数据库中ks_km_broker等相关表也并未删除。


在以上情况中,Knowstreaming页面指标都是持续的。

1、集群的规模是?可以看一下日志,看采集超时的日志是否比较多。如果比较多,可以考虑提高采集线程数。 2、元数据未清理的问题,辛苦单独提个Issue,后续我们优化一下,也欢迎贡献PR。