DejaVu
DejaVu copied to clipboard
关于FDG及failure units的若干疑问
- 每个failure units的metric是怎么选定的?
the experienced engineers of an online service system can define the candidate failure units by summarizing the indicative metric groups on different component classes.可否理解为每个failure units的指标群是人工选择的? - 为什么不能用GCN(3.3) 您在论文中提到“ For generalizability, the feature aggregator should be structure-independent. Thus, graph convolutional network (GCN) [29] is unsuitable.”能否详细解释一下为什么要考虑structure-independent
- FDG是如何生成和更新的 您在论文中有提到组件、部署关系会经常改变,这意味着FDG需要经常更新,这部分更新使利用专家经验完成吗?
- FDG是无向图,如何反应依赖/传播关系 无向图表达相互影响,而非单方面影响(依赖),为什么能反应依赖关系呢?
期待您的解答(╹▽╹)
- 是的,可以说是人工选定的。准确来说,我们的实验中的做法,实际上是把我们监控到的所有指标分类成不同的failure class。
- strucuture-independent是希望让系统中类似的组件能共享模型。GCN的计算是和节点在图上的具体位置有关的,但是GAT就只和周围邻居的特征有关
- 你可以参考我在这个issue的回答 https://github.com/NetManAIOps/DejaVu/issues/3
- 我们使用无向图的原因是因为,我们很难通过调用和部署关系确定故障传播的方向。比如service1部署在docker1上,那么docker1上的内存不足问题可以影响service1,但是如果是service1本身存在内存泄漏问题,那么就是service1反过来影响docker1,然后可能再影响docker1上的其他服务。因为这种不确定性,所以我们干脆用了无向图,避开了确定方向的问题。我们这个方法的本质思路,其实是学习故障特征(组件的指标特征和组件间在图上的相对关系)和根因之间的关系,并没有真的去分析故障传播的路径,所以用无向图也能够达到效果。当然,如果有更好的方法, 能得到更准确的故障实例间的因果关系图,应该是更好的。
另外关于数据集还有几个问题: a1和a2中的metric和metric_norm是什么关系?a2的指标包含a1的,两个集之间有什么关系? 数据集中的数据是原始数据还是归一化后的数据,如果是归一化后的,请问使用了什么归一化方法?
- norm指的是归一化之后的指标数据
- a1+a2=A数据集
- 归一化方法主要用的是sklearn里面的robust scaler,另外有几个指标是特殊处理的。比如响应时间这种先取了对数
Zeyan LI 李则言 E-Mail: @.*** Ph.D. student Department of Computer Science Tsinghua University Beijing, China
在 2022年9月17日,21:22,adverbial39 @.***> 写道:
另外关于数据集还有几个问题: a1和a2中的metric和metric_norm是什么关系?a2的指标包含a1的,两个集之间有什么关系? 数据集中的数据是原始数据还是归一化后的数据,如果是归一化后的,请问使用了什么归一化方法?
— Reply to this email directly, view it on GitHubhttps://github.com/NetManAIOps/DejaVu/issues/5#issuecomment-1250070967, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AC7KLI4F43BOUE5MQW7QOWTV6XA2VANCNFSM6AAAAAAQM7GUNM. You are receiving this because you commented.Message ID: @.***>