Vincent
Vincent
Add a log parsing script to monitor GraphScope GIE. The GIE monitor UI as follows: 
**Coordinator监控遇到的一些问题**: - 载图时间:每张图都有自己的名字,需要区分不同图的载图时间,这个名字从哪里获取? - analytical tasks 时间: - coordinator以grpc向computing engine发送任务请求,因此可以监测grpc client从send request到response arrived的时间。 - 但是grpc发送的可以是一个requests list,其中包含了多个任务。想要在coordinator中获取每个任务的执行时间比较困难,这个信息需要在engine server中获得 ----> 或者是否能在fetch logs中获得该信息?
@lidongze0629 解释得非常清楚,非常谢谢您。 我研究一下log目前的信息和格式,看看还需要添加或修改什么,再给您答复。 “最终可视化效果的的设计” --- 这个我这两天思考一下,设计好了在这里留言。
 **7月20日coordinator监控指标** 1. Session状态 Session有三种情况: Connected, Closed, DisConnected。 DisConnected状态会调用cleanup清除Session。 所以我在图表中将Session归纳为两种状态: On/Off。 2. 分析/交互型任务完成数目统计 在图中展示了5个数据: - Total requests = Analytical requests + Interactive requests - Analytical requests -...
> @VincentFF > > 1. session id 可以不作为标签 > 2. 针对Op时间metric的选择,最好不同的op都画在一条线上(即他们的纵坐标相同,以颜色不同区分),因为op是串型执行的,效果如下 > > @lidongze0629 我尝试了一下,这样的表达图暂时无法做到。 原因在于: prometheus里面timestamp的概念不是我将metrics写入web的时间,是promethues抓取metrics写入数据的时间。 我将需要的指标计算出来暴露在web中,prometheus在一个设定的intelval来定时抓取web中的数据(一次抓取一批),然后写入自己的数据库并给一个写入数据时的时间戳。 所以我一个算法执行了多个op,然后promethues一次性将这多个op的数据抓取存入自己的时序数据库,它们的时间是几乎一致的。 目前我给出的方案如下图:  其中左图是最近一次算法中各op的运行时间数据及对比,右图是各op操作时间的历史走势图(点击某一个op单独观察)。
**GraphScope GIE 服务指标** 分了两个部分: - Total Query: 为总的数据 - API Query: 各个请求接口的详细数据 @lidongze0629 