DejaVu 关于FDG及failure units的若干疑问

每个failure units的metric是怎么选定的？ the experienced engineers of an online service system can define the candidate failure units by summarizing the indicative metric groups on different component classes. 可否理解为每个failure units的指标群是人工选择的？
为什么不能用GCN（3.3）您在论文中提到“ For generalizability, the feature aggregator should be structure-independent. Thus, graph convolutional network (GCN) [29] is unsuitable.”能否详细解释一下为什么要考虑structure-independent
FDG是如何生成和更新的您在论文中有提到组件、部署关系会经常改变，这意味着FDG需要经常更新，这部分更新使利用专家经验完成吗？
FDG是无向图，如何反应依赖/传播关系无向图表达相互影响，而非单方面影响（依赖），为什么能反应依赖关系呢？

期待您的解答(╹▽╹)

Sep 15 '22 03:09 adverbial39

是的，可以说是人工选定的。准确来说，我们的实验中的做法，实际上是把我们监控到的所有指标分类成不同的failure class。
strucuture-independent是希望让系统中类似的组件能共享模型。GCN的计算是和节点在图上的具体位置有关的，但是GAT就只和周围邻居的特征有关
你可以参考我在这个issue的回答 https://github.com/NetManAIOps/DejaVu/issues/3
我们使用无向图的原因是因为，我们很难通过调用和部署关系确定故障传播的方向。比如service1部署在docker1上，那么docker1上的内存不足问题可以影响service1，但是如果是service1本身存在内存泄漏问题，那么就是service1反过来影响docker1，然后可能再影响docker1上的其他服务。因为这种不确定性，所以我们干脆用了无向图，避开了确定方向的问题。我们这个方法的本质思路，其实是学习故障特征（组件的指标特征和组件间在图上的相对关系）和根因之间的关系，并没有真的去分析故障传播的路径，所以用无向图也能够达到效果。当然，如果有更好的方法，能得到更准确的故障实例间的因果关系图，应该是更好的。

Sep 15 '22 04:09 lizeyan

另外关于数据集还有几个问题： a1和a2中的metric和metric_norm是什么关系？a2的指标包含a1的，两个集之间有什么关系？数据集中的数据是原始数据还是归一化后的数据，如果是归一化后的，请问使用了什么归一化方法？

Sep 17 '22 13:09 adverbial39

Zeyan LI 李则言 E-Mail: @.*** Ph.D. student Department of Computer Science Tsinghua University Beijing, China

在 2022年9月17日，21:22，adverbial39 @.***> 写道：

另外关于数据集还有几个问题： a1和a2中的metric和metric_norm是什么关系？a2的指标包含a1的，两个集之间有什么关系？数据集中的数据是原始数据还是归一化后的数据，如果是归一化后的，请问使用了什么归一化方法？

Sep 18 '22 04:09 lizeyan

DejaVu DejaVu copied to clipboard