Twwy
Twwy
config/data这样的封装是不错的,却无法做横纵坐标轴交换 我需要的插入的配置为 > xAxis: { > type: 'value', > }, > yAxis: { > type: 'category', > },
1. 每个应用/插件有单独的detail页面,通过URL可以直达 2. 在搜索页面中按照 应用/插件 过滤 3. 支持 搜索/分页 
1. 构建统一的告警通道出口。 2. SREWorks对接的外部告警渠道收敛至该出口。 3. 支持告警渠道的插件插拔。
# 背景 大数据集群,作为处理和管理大规模数据的主要工具,其稳定性和效率直接影响着企业运营的顺畅度。然而,由于大数据集群系统的复杂性和多样性,导致故障发生时的根因分析(Root Cause Analysis, RCA)变得越来越困难。 具体来说,由于各类大数据架构的种类众多,如Hadoop、Spark、HBase、Kafka、Flink等,每一种架构都有自己独特的运行机制和可能出现的问题。如果采用传统的决策树进行故障定位和根因分析,不仅需要对每一种架构都进行深入的了解和研究,还需要不断更新和维护决策树,以应对系统更新和变化带来的新问题。这对于运维人员来说无疑是一项巨大的挑战,尤其是在大规模的数据中心,这种工作的复杂性和难度更是令人望而却步。 在此背景下,我们期望基于AI大模型来解决这个问题。AI大模型具有强大的理解和推理能力,能够理解和处理大规模、多源的数据,如日志文件、性能指标、系统事件等。并且,AI大模型可以自动学习和识别故障模式,进行因果推理,从而准确地找出故障的根因。 我们期望通过这个项目,建立一个基于AI大模型的自动化根因分析方案。这不仅能够减轻运维人员的工作负担,还能显著提高故障处理的效率和准确性,从而为企业节省大量的时间和资源。 # 推进思路 ## 1. 熟悉langchain的工程框架和基础概念 https://python.langchain.com/en/latest/use_cases/question_answering.html ## 2. 基于langchain落地HDFS集群的不可用诊断 包括但不限于下列场景: ### 场景一:磁盘空间不足导致namenode进程异常 当NameNode所在节点存在磁盘空间不足问题时,namenode会主动关闭以防止进一步损坏。 最常见的场景之一,hdfs服务异常建议优先排查这一项 登陆namenode所在节点,执行df -h看下存储水位,有任何一块盘满达到100%均会导致namenode自动关闭; 也可以进一步通过查看namenode运行日志来确认namenode异常原因,登陆namenode所在节点,cd /mnt/disk1/log/hadoop-hdfs,ls -rlt|grep -i namenode,tail方式查看最新的log文件:...
问题诊断case增加-apiserver中https://192.168.0.1:443无法访问
可观测组件拆分后,合成一个运维应用。 在每个需要纳管的集群中,部署一个可观测运维应用。 也可以不部署。