nightingale
nightingale copied to clipboard
The alarm rule duplicate notification rule is ineffective. Despite setting it to 60 minutes, it still triggers frequent alarms.
Relevant server.conf | webapi.conf
无
Relevant logs
无
System info
v6.2.0-c5cd6c0337d4f8d6fa33a39bbcbf593d930ee70e
Steps to reproduce
通知规则为60分钟,最大发送一次,但还是会频繁发送告警。
Expected behavior
无
Actual behavior
无
Additional info
无
可以看告警历史列表,这个告警中间有恢复过么,如果恢复过,上次异常记录会被清理
是有恢复记录。 原因是带外网络的不健壮性,虽然设置了采集频率为120秒,但由于同时并发的采集造成网络波动,导致某些设备指标采集时断时续。 本轮触发告警之后,下一轮采集不到数据,由于夜莺的告警恢复逻辑是没有查询到数据也算恢复,所以会导致频繁的触发恢复。
后续会考虑告警规则里添加恢复条件吗?我可以允许告警一直挂着,直到某一轮训达到恢复条件才恢复告警,而不是现在的查询不到数据就算恢复。
这个场景,目前应该可以通过配置留观时长来解决,比如配置留观时长为 20分钟,可以避免频繁报恢复和异常