obdiag
obdiag copied to clipboard
obdiag (OceanBase Diagnostic Tool) is designed to help OceanBase users quickly gather necessary information and analyze the root cause of the problem.
## 内存爆表现 一般来说,内存爆有两种直观现象 1、请求返回-4013/-4030; 2、日志中出现类似oops, alloc failed字样; ## 常用诊断表 - __all_virtual_memory_info 这张表所有版本都有,属于mod级别。mod是observer一个用于监控的概念,可以用于最快地定位出问题所属模块甚至代码, ```sql OceanBase(root@oceanbase)>desc __all_virtual_memory_info; +-------------+--------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +-------------+--------------+------+-----+---------+-------+...
### Describe your use case 因为内核参数配置导致集群出现问题,通过一键巡检很难快速定位原因。大部分告警级别都是warning,很难从中筛选出关键配置项。 data:image/s3,"s3://crabby-images/cb6a2/cb6a25a312de66147623a839a48b89a2f518c897" alt="3cbf9ed8e4b0c7a293bfe5a184668d83" ### Describe the solution you'd like 某些关键的内核参数如果配置有误,设置较高的告警级别,方便快速定位,告警信息可以给出此配置项对集群的影响。 ### Describe alternatives you've considered _No response_ ### Additional context _No response_
### Description OceanBase不同OBSERVER的数据库服务器的CPU使用率不均衡,有的服务器CPU已经出现瓶颈,有些服务器CPU使用率还比较空闲,可能引起什么问题,该如何排查分析 --
### Describe your use case observer的CPU使用率居高不下,一般是什么问题引起的? ### Describe the solution you'd like 期望obdiag 能将cpu爆问题的根因分析支持一下。 ### Describe alternatives you've considered _No response_ ### Additional context _No response_
### Describe your use case ob 4.x 的clog解析可以通过logminer进行 ### Describe the solution you'd like 期望通过logminer对clog进行解析并收集 ### Describe alternatives you've considered _No response_ ### Additional context _No response_
### Description 环境信息:独立部署的1.5版本obdiag,主机ssh用admin用户,配置了SSH免密 异常1:所有sysctl参数都取不到,都报错。用root就没此问题 异常2:命令不能执行,实际上在主机上admin用户下可执行 data:image/s3,"s3://crabby-images/b5af4/b5af426e2d1bbb88e4547f4bd734b089e63ab01e" alt="37712e0ea0dd12be7d4ad8b1f870a36c"
### Describe your use case 故障场景:OceanBase集群某些节点磁盘使用率过高时,比如某些节点超过85%的时候,不及时处理,继续写入会导致集群故障。 ### Describe the solution you'd like OceanBase集群某些节点磁盘使用率过高时,比如某些节点超过85%的时候,不及时处理,继续写入会导致集群故障。如果我们的集群中有部分节点的磁盘使用率不高,是可以通过迁移unit将磁盘高的节点的数据迁移到磁盘使用率不高的节点上来应急的。不过判定哪些unit可以迁移到哪,比较繁琐,希望诊断工具能支持一下,,将unit迁移的判断逻辑工具话,直接生成迁移语句。 ### Describe alternatives you've considered _No response_ ### Additional context _No response_
### Describe your use case 增加代码格式化检查的插件来规范开发的代码合入 ### Describe the solution you'd like 增加代码格式化检查的插件来规范开发的代码合入 ### Describe alternatives you've considered _No response_ ### Additional context _No response_
### Describe your use case DUMP出OBSERVER列表及其关键指标 ### Describe the solution you'd like DUMP出OBSERVER LIST及相关信息 ### Describe alternatives you've considered 信息清单如下: 1、基本信息 所在服务器IP/PORT 所属ZONE 分配的 CPU/内存/文件系统容量等基本信息 2、状态信息: 创建时间 启动时间 状态 所在服务器的CPU使用率...