Jacken

Results 35 comments of Jacken

虚拟机状态未知 对应的磁盘也是未知 同时发现,我的虚拟机是在node7节点,磁盘未知错误的信息显示对应的地址是node9(ip是172.16.1.233) ``` { "__reason__": "{\"error\":{\"class\":\"ClientError\",\"code\":499,\"details\":\"Get \\\"https://172.16.1.233:8885/disks/1b298235-a82f-4579-8b7a-e6dd2d9916d3/6f4b9da3-977c-45a1-8a78-e605d87b8adf/status\\\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)\",\"request\":{\"headers\":{\"User-Agent\":\"yunioncloud-go/201708\",\"X-Auth-Token\":\"*\",\"X-Region-Version\":\"v2\",\"X-Request-Id\":\"180688-8c5614\",\"X-Task-Id\":\"38f00d85-6aa1-494e-8d4d-bc5b3c41f451\",\"X-Task-Notify-Url\":\"https://default-region:30888/tasks/38f00d85-6aa1-494e-8d4d-bc5b3c41f451\",\"X-Yunion-Parent-Id\":\"0.0\",\"X-Yunion-Peer-Service-Name\":\"compute_v2\",\"X-Yunion-Remote-Addr\":\"172.16.1.233:8885\",\"X-Yunion-Span-Id\":\"0.0.0\",\"X-Yunion-Span-Name\":\"\",\"X-Yunion-Strace-Debug\":\"true\",\"X-Yunion-Strace-Id\":\"d5e74afa\"},\"method\":\"GET\",\"url\":\"https://172.16.1.233:8885/disks/1b298235-a82f-4579-8b7a-e6dd2d9916d3/6f4b9da3-977c-45a1-8a78-e605d87b8adf/status\"}}}", "__stage__": "OnDiskSyncStatusComplete", "__status__": "ERROR" } ``` 以下是node9的pod日志 发现default-host的日志是这样: ``` [error 2024-02-04 01:43:39 storageman.GatherHostStorageStats(core.go:454)] sync...

> @chenjacken 看起来是host-agent访问 ceph 失败了,需要确认一下 ceph 集群状态是否正常 ``` [root@master1 ~]# ceph -s cluster: id: e4a15469-543d-4dd4-8367-569d27b1b58f health: HEALTH_WARN 15 daemons have recently crashed services: mon: 3 daemons, quorum i,j,l (age 4h)...

重启pod,再同步磁盘状态,host日志显示: ``` [error 2024-02-04 02:20:39 httperrors.HTTPError(httperrors.go:110)] Send error Storage 1b298235-a82f-4579-8b7a-e6dd2d9916d3 not found [info 2024-02-04 02:20:39 appsrv.(*Application).ServeHTTP(appsrv.go:288)] 1Dy_ML5U1CU3_77NQE_4CAIeFiA= 404 0b47ee-d64597-11c67a GET /disks/1b298235-a82f-4579-8b7a-e6dd2d9916d3/6f4b9da3-977c-45a1-8a78-e605d87b8adf/status (172.16.1.213:37705:compute_v2) 363.94ms [error 2024-02-04 02:21:01 httperrors.HTTPError(httperrors.go:110)] Send error Storage...

> @chenjacken 得先解决一下这个节点访问 ceph的问题,不然这个host 注册不上对应的ceph storage. 看起来 rook-ceph 不稳定,经常会有 pod crash,需要查看日志确认原因。比如可能是内存资源预留不足?或者是网络问题? 请教下rook-ceph 如何排查问题,对应怎么看日志? rook-ceph pod资源预留的配置是: ``` [root@master1 ~]# kubectl -n rook-ceph get ConfigMap rook-config-override -o yaml apiVersion: v1 data: config:...

> @chenjacken 一般就是看下 rook-ceph namespace 下 pod 状态和日志,ceph的问题需要自己具体排查一下。 有一个点需要确认的是看下宿主机是否开启了大页?大页会提前分配内存,确认一下大页预留的内存是否够用 嗯,谢谢。 有开启大页,没特意配置做预留,都是默认的。一般预留多少比较合适?通过什么计算吗? ``` [root@node4 ~]# free -h total used free shared buff/cache available Mem: 62G 57G 887M 3.2G 4.7G 1.2G Swap:...

> @chenjacken 一般控制节点默认不会开启大页,ceph是否运行在控制节点上? 计算节点默认是 20% 内存预留,如果上面没有跑其他特殊服务的话应该不用特殊配置 好的,谢谢。rook-ceph的mon没特意指派到控制节点, mon pod会跳动。

> @chenjacken 是这个地址,虚机的网络通吗,vpc网络 还是经典网络 虚拟机网络是通的,是经典网络。

> @chenjacken 可以在虚机里面访问一下这个地址试试,理论上虚机是通的这个地址应该也没问题。 也可能是 host-agent 当时没启动?metadata server 是在 host-agent 服务中启动的 host-agent 是一个pod吗? node7是虚拟机所在的宿主机。 ``` [root@master1 ~]# kubectl get pods -n onecloud|grep agent default-esxi-agent-57f79cb476-stsv6 1/1 Running 0 13h default-lbagent-t847s 2/2 Running...

> @chenjacken 什么操作系统,设置完成后需要重启宿主机 嗯,是有重启过的,其他节点可以 ,就这个不行。 另外,查到另外一个情况是,内核版本是是3的那个,而不是`5.4.130-1.yn20230805`,是因为部署时候,yum超时没更新到最新的内核版本吗?

根据以上指引内容手工开启成功!