Zeyan Li 李则言

Results 36 comments of Zeyan Li 李则言

> 我也有同样的问题——想采集train-ticket的日志数据,准确的说是trace log/span log。我刚接触微服务架构/APM(e.g. skywalking)/elasticsearch,不了解他们的详细用法,在官方文档中也难以找到答案。目前只能从部署的skywalking中可视化监测train-ticket的日志数据,但不知如何进一步批量收集日志为一个数据集(像这样[https://cloud.tsinghua.edu.cn/d/8371855eddd64a8db23b/)。因此想向你学习一下数据采集方面的经验,比如APM的选择、是否要编写插件脚本、如何采集自己想要的日志数据类别(traceID/spanID/timestamp/...)等,还望不吝赐教,指点一二,万分感谢!](https://cloud.tsinghua.edu.cn/d/8371855eddd64a8db23b/%EF%BC%89%E3%80%82%E5%9B%A0%E6%AD%A4%E6%83%B3%E5%90%91%E4%BD%A0%E5%AD%A6%E4%B9%A0%E4%B8%80%E4%B8%8B%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86%E6%96%B9%E9%9D%A2%E7%9A%84%E7%BB%8F%E9%AA%8C%EF%BC%8C%E6%AF%94%E5%A6%82APM%E7%9A%84%E9%80%89%E6%8B%A9%E3%80%81%E6%98%AF%E5%90%A6%E8%A6%81%E7%BC%96%E5%86%99%E6%8F%92%E4%BB%B6%E8%84%9A%E6%9C%AC%E3%80%81%E5%A6%82%E4%BD%95%E9%87%87%E9%9B%86%E8%87%AA%E5%B7%B1%E6%83%B3%E8%A6%81%E7%9A%84%E6%97%A5%E5%BF%97%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%88%AB%EF%BC%88traceID/spanID/timestamp/...%EF%BC%89%E7%AD%89%EF%BC%8C%E8%BF%98%E6%9C%9B%E4%B8%8D%E5%90%9D%E8%B5%90%E6%95%99%EF%BC%8C%E6%8C%87%E7%82%B9%E4%B8%80%E4%BA%8C%EF%BC%8C%E4%B8%87%E5%88%86%E6%84%9F%E8%B0%A2%EF%BC%81) 以下是我找到的trace log样本: { "name": "Hello-Greetings", "context": { "trace_id": "0x5b8aa5a2d2c872e8321cf37308d69df2", "span_id": "0x5fb397be34d26b51", }, "parent_id": "0x051581bf3cb55c13", "start_time": "2022-04-29T18:52:58.114304Z", "end_time": "2022-04-29T22:52:58.114561Z", "attributes": { "http.route": "some_route1" }, "events": [...

python有个库,叫elasticsearch,是对es的http API的简单封装

原始数据中就存在这样的情况。这可能是因为我们当时处理的时候没有正确区分不同类型的 span,有的 span 和 parent span 之间的关系并不是调用。

> 您好,我想请问一下,对于一条trace,其中请求顺序为 A -> B -> C -> D,那么对于一个调用对A->B,对应需要采集timestamp endstamp的时间信息,那么这个timestamp和endstamp是对应调用过程中的什么时间呢(比如A发出请求的时间、B接受请求的时间、B返回请求结果的时间、A接受B返回结果的时间)? 应该是接受请求和发出响应的时间(我也记不太清了,原始数据没了,应该是)

> 以及请问每条trace的label是什么? label 表示这条 trace 是不是 abnormal trace

> 你好,请问label对应的abnormal是指在trace中就有信息表明存在故障的abnormal吗,比如由于故障发生导致的trace断掉并将故障信息返回到上游?是否包含隐性的delay方面的abnormal呢? 我们标注的方式是把在故障注入时间段内所有经过了被注入故障的服务、容器或者 API 的 trace 都标注为异常。这里面可能包括 trace 断掉的异常也可能包括 delay 的异常

Select a threshold for the anomaly probability

1. `threshold_prior` is deprecated. I explored automatic threshold selection and I deleted the testing code in the final published code. But some codes seem to be just missed. 2. The...

简而言之,处理成和发布的公开数据集一样的格式就可以。输入数据都由FDG这个类读取和处理,主要会包含三块: - `metrics.norm.csv`,即归一化后的指标(务必要归一化)。字段参考公开数据集。其中每个指标的命名规则必须为:`{component_name}##{metric_kind}`。我的代码中是通过`split("##")`的方式区分指标在哪个component上的,务必注意。 - `faults.csv`,里面需要标记每个故障的时间点和根因,FDG会自动将其拆分成训练集、验证集和测试集。里面必需的字段就是timestamp和root_cause_node - `graph.yml`(所有的故障公用的FDG)或者一个文件夹(里面需要是每个故障对应的FDG)。里面具体定义图的语法请参考我给的公开数据集。

抱歉,没仔细看readme。确实zotero默认的组织方式很乱。 不过就我的使用体验来说,每次想在iPad上打开文献的时候,就会发现自己忘了rename了,然后又得回到电脑rename一次,还得等它同步完,每次都这样.... 不知道你有遇到这种问题么?是怎么解决的