obdiag issues

[Question]:observer 内存爆问题排查

## 内存爆表现一般来说，内存爆有两种直观现象 1、请求返回-4013/-4030； 2、日志中出现类似oops, alloc failed字样； ## 常用诊断表 - __all_virtual_memory_info 这张表所有版本都有，属于mod级别。mod是observer一个用于监控的概念，可以用于最快地定位出问题所属模块甚至代码， ```sql OceanBase(root@oceanbase)>desc __all_virtual_memory_info; +-------------+--------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +-------------+--------------+------+-----+---------+-------+...

Teingi

question

[Feature]: 内核参数max_map_count告警级别及报错信息调整

1

### Describe your use case 因为内核参数配置导致集群出现问题，通过一键巡检很难快速定位原因。大部分告警级别都是warning，很难从中筛选出关键配置项。 ![3cbf9ed8e4b0c7a293bfe5a184668d83](https://github.com/oceanbase/oceanbase-diagnostic-tool/assets/160576750/6f3aa91c-fd73-4779-8112-cdb141e6f798) ### Describe the solution you'd like 某些关键的内核参数如果配置有误，设置较高的告警级别，方便快速定位，告警信息可以给出此配置项对集群的影响。 ### Describe alternatives you've considered _No response_ ### Additional context _No response_

duzp111

wontfix

SQL执行RETRY次数过高有什么危害，如何分析

2

SQL执行RETRY次数突然增加，可能是哪些原因导致，如何排查定位原因

xuji755

question

[Question]: OceanBase不同OBSERVER的数据库服务器的CPU使用率不均衡可能引起什么问题，该如何排查分析

2

### Description OceanBase不同OBSERVER的数据库服务器的CPU使用率不均衡，有的服务器CPU已经出现瓶颈，有些服务器CPU使用率还比较空闲，可能引起什么问题，该如何排查分析 --

xuji755

question

[Feature]: CPU爆问题如何排查

1

### Describe your use case observer的CPU使用率居高不下，一般是什么问题引起的？ ### Describe the solution you'd like 期望obdiag 能将cpu爆问题的根因分析支持一下。 ### Describe alternatives you've considered _No response_ ### Additional context _No response_

Teingi

question

[Feature]: obdiag支持LogMiner 用来收集CLOG日志

### Describe your use case ob 4.x 的clog解析可以通过logminer进行 ### Describe the solution you'd like 期望通过logminer对clog进行解析并收集 ### Describe alternatives you've considered _No response_ ### Additional context _No response_

Teingi

enhancement

[Enhancement]: 使用普通用户进行检测时失败

1

### Description 环境信息：独立部署的1.5版本obdiag，主机ssh用admin用户，配置了SSH免密异常1：所有sysctl参数都取不到，都报错。用root就没此问题异常2：命令不能执行，实际上在主机上admin用户下可执行 ![37712e0ea0dd12be7d4ad8b1f870a36c](https://github.com/oceanbase/oceanbase-diagnostic-tool/assets/11705026/ec9cb316-25c2-4fad-9044-e6fb959a6461)

xiongmz

enhancement

[Feature]: 磁盘占用率高时,希望obdiag可以支持一键诊断给出合理的迁移语句

### Describe your use case 故障场景：OceanBase集群某些节点磁盘使用率过高时，比如某些节点超过85%的时候，不及时处理，继续写入会导致集群故障。 ### Describe the solution you'd like OceanBase集群某些节点磁盘使用率过高时，比如某些节点超过85%的时候，不及时处理，继续写入会导致集群故障。如果我们的集群中有部分节点的磁盘使用率不高，是可以通过迁移unit将磁盘高的节点的数据迁移到磁盘使用率不高的节点上来应急的。不过判定哪些unit可以迁移到哪，比较繁琐，希望诊断工具能支持一下，，将unit迁移的判断逻辑工具话，直接生成迁移语句。 ### Describe alternatives you've considered _No response_ ### Additional context _No response_

Teingi

enhancement

RCA

[Feature]: 增加代码格式化检查的插件来规范开发的代码合入

### Describe your use case 增加代码格式化检查的插件来规范开发的代码合入 ### Describe the solution you'd like 增加代码格式化检查的插件来规范开发的代码合入 ### Describe alternatives you've considered _No response_ ### Additional context _No response_

Teingi

[Feature]: OBSERVER LIST DUMP

1

### Describe your use case DUMP出OBSERVER列表及其关键指标 ### Describe the solution you'd like DUMP出OBSERVER LIST及相关信息 ### Describe alternatives you've considered 信息清单如下： 1、基本信息所在服务器IP/PORT 所属ZONE 分配的 CPU/内存/文件系统容量等基本信息 2、状态信息：创建时间启动时间状态所在服务器的CPU使用率...

xuji755

enhancement

obdiag
obdiag copied to clipboard

Metadata

[Question]:observer 内存爆问题排查

[Feature]: 内核参数max_map_count告警级别及报错信息调整

SQL执行RETRY次数过高有什么危害，如何分析

[Question]: OceanBase不同OBSERVER的数据库服务器的CPU使用率不均衡可能引起什么问题，该如何排查分析

[Feature]: CPU爆问题如何排查

[Feature]: obdiag支持LogMiner 用来收集CLOG日志

[Enhancement]: 使用普通用户进行检测时失败

[Feature]: 磁盘占用率高时,希望obdiag可以支持一键诊断给出合理的迁移语句

[Feature]: 增加代码格式化检查的插件来规范开发的代码合入

[Feature]: OBSERVER LIST DUMP

← Metadata

Owner

Metadata

obdiag obdiag copied to clipboard

Metadata

← Metadata

Owner

Metadata

obdiag
obdiag copied to clipboard