DejaVu icon indicating copy to clipboard operation
DejaVu copied to clipboard

如何使用自己的数据集

Open nivyY1112 opened this issue 2 years ago • 1 comments

您好,如果想用自己的数据集运行DejaVu模型的话,需要怎么做呢?数据集的格式有要求吗?需要做什么预处理?

nivyY1112 avatar Jul 13 '23 03:07 nivyY1112

简而言之,处理成和发布的公开数据集一样的格式就可以。输入数据都由FDG这个类读取和处理,主要会包含三块:

  • metrics.norm.csv,即归一化后的指标(务必要归一化)。字段参考公开数据集。其中每个指标的命名规则必须为:{component_name}##{metric_kind}。我的代码中是通过split("##")的方式区分指标在哪个component上的,务必注意。
  • faults.csv,里面需要标记每个故障的时间点和根因,FDG会自动将其拆分成训练集、验证集和测试集。里面必需的字段就是timestamp和root_cause_node
  • graph.yml(所有的故障公用的FDG)或者一个文件夹(里面需要是每个故障对应的FDG)。里面具体定义图的语法请参考我给的公开数据集。

lizeyan avatar Jul 13 '23 03:07 lizeyan