nightingale icon indicating copy to clipboard operation
nightingale copied to clipboard

添加对数据源可用性的检测,当数据源在线时才会对齐进行监控

Open kubehan opened this issue 1 year ago • 9 comments

image

What would you like to be added: 当数据源不可用时候,n9e仍然会对不可用数据源对应的rule进行监测,这带来一定的消耗,是否可考虑仅对在线的数据源进行监测? Why is this needed: 目前管理了200+ Prometheus数据源,其中有很多数据源会时常断开,导致n9e 日志大量的Error

kubehan avatar Jul 28 '24 03:07 kubehan

如果突然又可以連上了應不應該又自動重新監測呢?

chenyunda218 avatar Jul 29 '24 01:07 chenyunda218

image **What would you like to be added**: 当数据源不可用时候,n9e仍然会对不可用数据源对应的rule进行监测,这带来一定的消耗,是否可考虑仅对在线的数据源进行监测? **Why is this needed**: 目前管理了200+ Prometheus数据源,其中有很多数据源会时常断开,导致n9e 日志大量的Error

200+ Prometheus 集群,请问这是怎么一个用户场景,可以分享下吗,谢谢。

laiwei avatar Jul 29 '24 01:07 laiwei

数据源都是内网互通吗???我现在使用异地机房的数据源就不能添加。强制验证。

YIwanT avatar Aug 05 '24 05:08 YIwanT

如果突然又可以連上了應不應該又自動重新監測呢?

需要监控,因此建议是定期去检测数据源可用性

kubehan avatar Sep 05 '24 11:09 kubehan

数据源都是内网互通吗???我现在使用异地机房的数据源就不能添加。强制验证。

数据源是分布在各机房的,不过都可以通过http进行访问

kubehan avatar Sep 05 '24 11:09 kubehan

集群,请问这是怎么一个用户场景,可以分享下吗,谢谢。

大量的私有云集群,一个集群一个Prometheus集群

kubehan avatar Sep 05 '24 11:09 kubehan

希望能够支持这个需求;目前面临着大量的因为数据源异常导致错误的发送告警恢复的通知,且难以知道数据源是否正常,如果要实现这类需求,还需要采用其他类似uptime-kuma的工具做集成

kubehan avatar Sep 15 '24 12:09 kubehan

目前面临着大量的因为数据源异常导致错误的发送告警恢复的通知

现在的代码逻辑确实是查不到数据了就恢复,但是前提是查询请求本身没有报错,你确定在你的环境里出现了:数据源已经连不上了即查询失败,仍然报了恢复?

UlricQin avatar Sep 17 '24 01:09 UlricQin

目前面临着大量的因为数据源异常导致错误的发送告警恢复的通知

现在的代码逻辑确实是查不到数据了就恢复,但是前提是查询请求本身没有报错,你确定在你的环境里出现了:数据源已经连不上了即查询失败,仍然报了恢复?

目前看是的

kubehan avatar Oct 17 '24 08:10 kubehan