Squeeze icon indicating copy to clipboard operation
Squeeze copied to clipboard

关于 涟漪效应 的可解释性

Open mambasmile opened this issue 2 years ago • 7 comments

您好!

整个论文在计算因的潜在得分时,利用的是 涟漪效应的原理,这里基于的理论是:如果属性值是因,则属性值的变化和包含属性值的样本的变化是一致的;即 Province = Beijing 下降60%,则Province = Beijing,ISP = China Mobile 和 Province = Beijing,ISP = China Unicom均会下降60%;然后反过来认为 符合涟漪效应的属性值就是根因;从这里看出,您将 涟漪效应和根因 作为了一对充分必要条件;

这里我们存在疑惑:如果属性值符合涟漪效应,属性值是根因的依据是什么?

mambasmile avatar Jun 27 '22 07:06 mambasmile

我们判断根因的依据其实是GPS而不是GRE。GPS不止考虑了GRE。我们认为一个属性组合是根因需要满足以下两个条件

  1. 这个属性组合尽可能多地覆盖了数据中的异常部分而没有覆盖正常部分
  2. 这个属性组合要尽可能简洁。
  3. 这个属性组合要满足GRE 条件1和3在GPS公式中很明显;条件2因为我们的搜索算法,没有必要放在GPS公式中(因为我们是搜top-k的组合,如果同一个cuboid中,比根因复杂的属性组合就会覆盖更多的正常数据;而不同的cuboid的结果我们通过succinctness的比较考虑了)。 至于第一步的聚类,本质上就只是为了化简问题(一个多根因的问题->多个单根因的子问题)

lizeyan avatar Jun 27 '22 07:06 lizeyan

为啥一个属性组合是根因需要满足条件 "3. 这个属性组合要满足GRE"

GRE是从数据上观测来的,还是有理论证明呢

mambasmile avatar Jun 27 '22 07:06 mambasmile

GRE是经验性的,不一定所有系统、所有故障都会满足。条件3相比于1和2可以理解为一个正则化项,因为数据中异常检测的不准确等噪声,只用1和2就很容易受到影响。

lizeyan avatar Jun 27 '22 07:06 lizeyan

在hotspot方法里,PS值考虑了RE,hotspot方法找的根因必须遵循RE,而不是经验性的认为

所以大佬,您能帮忙解释一下,hotspot方法考虑RE的依据是什么?

image

mambasmile avatar Jun 27 '22 09:06 mambasmile

GRE是经验性的,不一定所有系统、所有故障都会满足。条件3相比于1和2可以理解为一个正则化项,因为数据中异常检测的不准确等噪声,只用1和2就很容易受到影响。

大佬,这个没法直观的理解,可以帮忙举个例子说明一下么,最近要完成一个project,需要参考使用Hotspot或者Squeeze

mambasmile avatar Jun 27 '22 10:06 mambasmile

在hotspot方法里,PS值考虑了RE,hotspot方法找的根因必须遵循RE,而不是经验性的认为

所以大佬,您能帮忙解释一下,hotspot方法考虑RE的依据是什么?

image

HotSpot中RE也是经验性的发现。 HotSpot中的 potential score和Squeeze中的GPS的设计思路其实差不太多,只不过我们将异常和正常部分的距离分开算了再加起来而已(这是为了能够定位anomaly magnitude比较小的根因,论文中的实验也说明了Squeeze在这方面比HotSpot强很多)。虽然HotSpot论文中的故事不是这么写的,但是按我上面说的三个条件去理解这个potential score我觉得也没毛病。

lizeyan avatar Jun 29 '22 05:06 lizeyan

squeeze论文里介绍GPS可以定位anomaly magnitude比较小的根因,该如何理解?

image

这里PS(Province=Beijing) = 0.3,PS值偏小,因为比较的相对大小,若其他省份的PS也偏小,也能定位到Province=Beijing是根因,所以这里应该怎么理解可以定位到anomaly magnitude比较小的根因

mambasmile avatar Jun 30 '22 11:06 mambasmile