Jacken comments

Results 35 comments of


                                            Jacken

[求助/Help]v3.10.11版本host在新镜像创建虚拟机日志报错

虚拟机状态未知对应的磁盘也是未知同时发现，我的虚拟机是在node7节点，磁盘未知错误的信息显示对应的地址是node9(ip是172.16.1.233) ``` { "__reason__": "{\"error\":{\"class\":\"ClientError\",\"code\":499,\"details\":\"Get \\\"https://172.16.1.233:8885/disks/1b298235-a82f-4579-8b7a-e6dd2d9916d3/6f4b9da3-977c-45a1-8a78-e605d87b8adf/status\\\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)\",\"request\":{\"headers\":{\"User-Agent\":\"yunioncloud-go/201708\",\"X-Auth-Token\":\"*\",\"X-Region-Version\":\"v2\",\"X-Request-Id\":\"180688-8c5614\",\"X-Task-Id\":\"38f00d85-6aa1-494e-8d4d-bc5b3c41f451\",\"X-Task-Notify-Url\":\"https://default-region:30888/tasks/38f00d85-6aa1-494e-8d4d-bc5b3c41f451\",\"X-Yunion-Parent-Id\":\"0.0\",\"X-Yunion-Peer-Service-Name\":\"compute_v2\",\"X-Yunion-Remote-Addr\":\"172.16.1.233:8885\",\"X-Yunion-Span-Id\":\"0.0.0\",\"X-Yunion-Span-Name\":\"\",\"X-Yunion-Strace-Debug\":\"true\",\"X-Yunion-Strace-Id\":\"d5e74afa\"},\"method\":\"GET\",\"url\":\"https://172.16.1.233:8885/disks/1b298235-a82f-4579-8b7a-e6dd2d9916d3/6f4b9da3-977c-45a1-8a78-e605d87b8adf/status\"}}}", "__stage__": "OnDiskSyncStatusComplete", "__status__": "ERROR" } ``` 以下是node9的pod日志发现default-host的日志是这样： ``` [error 2024-02-04 01:43:39 storageman.GatherHostStorageStats(core.go:454)] sync...

[求助/Help]v3.10.11版本host在新镜像创建虚拟机日志报错

> @chenjacken 看起来是host-agent访问 ceph 失败了，需要确认一下 ceph 集群状态是否正常 ``` [root@master1 ~]# ceph -s cluster: id: e4a15469-543d-4dd4-8367-569d27b1b58f health: HEALTH_WARN 15 daemons have recently crashed services: mon: 3 daemons, quorum i,j,l (age 4h)...

[求助/Help]v3.10.11版本host在新镜像创建虚拟机日志报错

重启pod，再同步磁盘状态，host日志显示: ``` [error 2024-02-04 02:20:39 httperrors.HTTPError(httperrors.go:110)] Send error Storage 1b298235-a82f-4579-8b7a-e6dd2d9916d3 not found [info 2024-02-04 02:20:39 appsrv.(*Application).ServeHTTP(appsrv.go:288)] 1Dy_ML5U1CU3_77NQE_4CAIeFiA= 404 0b47ee-d64597-11c67a GET /disks/1b298235-a82f-4579-8b7a-e6dd2d9916d3/6f4b9da3-977c-45a1-8a78-e605d87b8adf/status (172.16.1.213:37705:compute_v2) 363.94ms [error 2024-02-04 02:21:01 httperrors.HTTPError(httperrors.go:110)] Send error Storage...

[求助/Help]v3.10.11版本host在新镜像创建虚拟机日志报错

> @chenjacken 得先解决一下这个节点访问 ceph的问题，不然这个host 注册不上对应的ceph storage. 看起来 rook-ceph 不稳定，经常会有 pod crash，需要查看日志确认原因。比如可能是内存资源预留不足？或者是网络问题？请教下rook-ceph 如何排查问题，对应怎么看日志？ rook-ceph pod资源预留的配置是： ``` [root@master1 ~]# kubectl -n rook-ceph get ConfigMap rook-config-override -o yaml apiVersion: v1 data: config:...

[求助/Help]v3.10.11版本host在新镜像创建虚拟机日志报错

> @chenjacken 一般就是看下 rook-ceph namespace 下 pod 状态和日志，ceph的问题需要自己具体排查一下。有一个点需要确认的是看下宿主机是否开启了大页？大页会提前分配内存，确认一下大页预留的内存是否够用嗯，谢谢。有开启大页，没特意配置做预留，都是默认的。一般预留多少比较合适？通过什么计算吗？ ``` [root@node4 ~]# free -h total used free shared buff/cache available Mem: 62G 57G 887M 3.2G 4.7G 1.2G Swap:...

[求助/Help]v3.10.11版本host在新镜像创建虚拟机日志报错

> @chenjacken 一般控制节点默认不会开启大页，ceph是否运行在控制节点上？计算节点默认是 20% 内存预留，如果上面没有跑其他特殊服务的话应该不用特殊配置好的，谢谢。rook-ceph的mon没特意指派到控制节点， mon pod会跳动。

[求助/Help]v3.10.11版本host在新镜像创建虚拟机日志报错

> @chenjacken 是这个地址，虚机的网络通吗，vpc网络还是经典网络虚拟机网络是通的，是经典网络。

[求助/Help]v3.10.11版本host在新镜像创建虚拟机日志报错

> @chenjacken 可以在虚机里面访问一下这个地址试试，理论上虚机是通的这个地址应该也没问题。也可能是 host-agent 当时没启动？metadata server 是在 host-agent 服务中启动的 host-agent 是一个pod吗？ node7是虚拟机所在的宿主机。 ``` [root@master1 ~]# kubectl get pods -n onecloud|grep agent default-esxi-agent-57f79cb476-stsv6 1/1 Running 0 13h default-lbagent-t847s 2/2 Running...

[求助/Help]3.10.11控制节点无法开启Hugepage

> @chenjacken 什么操作系统，设置完成后需要重启宿主机嗯，是有重启过的，其他节点可以，就这个不行。另外，查到另外一个情况是，内核版本是是3的那个，而不是`5.4.130-1.yn20230805`,是因为部署时候，yum超时没更新到最新的内核版本吗？

[求助/Help]3.10.11控制节点无法开启Hugepage

根据以上指引内容手工开启成功！