crayon

Results 67 comments of crayon

> @ZQHcode 节点管理 ,是哪个github 项目 你好,节点管理:https://github.com/TencentBlueKing/bk-nodeman

1. 解决元组越界 2. 更新 CMDB 加重试逻辑,参考:https://github.com/TencentBlueKing/bk-nodeman/blob/b862c685693139a4edf9b8b406b52e22c16bfa8a/apps/backend/components/collections/agent_new/install_other_agent.py#L47

![企业微信截图_5556cb76-583b-409e-85bb-44e5d58734a2](https://github.com/TencentBlueKing/bk-nodeman/assets/42019787/7a06f356-5e3a-464b-85bf-e30cb94e7f2c) ![企业微信截图_fbde3e0d-1a7d-4553-81bb-e21bf5258e24](https://github.com/TencentBlueKing/bk-nodeman/assets/42019787/2dc6a100-7d9c-44cb-a640-dbc9f93bcc2c)

# GSE 证书获取方案 ## 基本思路 证书放置在某个具体路径下,必要时通过环境变量声明该路径 ## 容器化 挂载或 `ConfigMap` 形式将证书目录挂到容器 此处可参考 GSE 的做法: ![WeChatWorkScreenshot_2c7efb58-0cd0-4458-bce1-f8d3d014ea52](https://user-images.githubusercontent.com/42019787/196591965-83b7707a-bd6d-4e37-8e9c-0b1c6bd621ac.png) ![WeChatWorkScreenshot_3599beed-e571-451c-8c4c-d13822608898](https://user-images.githubusercontent.com/42019787/196591975-e87a6ce1-46f9-40bf-9ed5-d696356d954d.png) ![WeChatWorkScreenshot_6e378195-2126-4a1a-8454-3233424a10d6](https://user-images.githubusercontent.com/42019787/196591987-a47441ed-5572-463a-92ca-e5a7d5a88766.png) ![WeChatWorkScreenshot_527cffa6-21f7-4769-8fe4-aea1d0e23a3a](https://user-images.githubusercontent.com/42019787/196591996-54893bbd-47ab-429f-8dcd-a80c3c8aa5dc.png) 可能存在的问题: * 每套环境证书可能不一样,如果是 `ConfigMap` 如何保证一套代码部署多个环境? ## 二进制 联系部署测在节点管理部署机器上共享证书目录

![企业微信截图_73ce7a61-0bfd-46ce-912c-4b34327d15ef](https://user-images.githubusercontent.com/42019787/206981175-827070cd-ee16-456a-b3c3-b9d1db82b2c4.png) `InstallProxy` `ReinstallProxy` 也需要补充这个原子

开发方案 * 问题定位:删除的业务没有在项目同步逻辑(gcloud/core/project.py sync_projects_from_cmdb)进行相应的停用/删除操作 * 如何处理:对比当前拉取的业务列表与项目(from_cmdb=true)的差异,将多出来的项目进行停用

## 联调信息 ### taskflow/api/status/xx/?instance_id=xxx 增加 `auto_retry_infos` ![企业微信截图_8306ac5b-09ea-4080-b984-dfddf0c46cc8](https://github.com/TencentBlueKing/bk-sops/assets/42019787/40a7923c-66b9-4c11-986e-8a7da42e4144) ### taskflow/api/node/detail/ 增加 `auto_retry_info` ![企业微信截图_151cd9f1-011a-41bd-bd68-093ddbbb7802](https://github.com/TencentBlueKing/bk-sops/assets/42019787/5746f9cc-f033-4d1a-9816-3917c1e06675) 手动重试次数 = 节点重试总数(`retry`) - 自动重试次数(`auto_retry_info.auto_retry_times`)

## 结论 性能瓶颈不是 API 服务副本数量,而是单个 Pod 并发空间太小,原先 1c2g 的情况下,gunicon worker / threads = 4 / 4 的配置 QPS 只能达到 40 ~ 50,单次并发请求在 20 左右便开始出现 502 ,目前扩容到 4c4g,gunicon 配置调整为 worker /...

「定时」执行中的新状态是「等待处理」 - 等待处理不允许用户暂停,会不会导致「暂停不及时」 如果定时过程中可以暂停,那用户就可以在「消息展示」前,大概率暂停住任务 ![企业微信截图_38657dbf-dfbf-459d-9bae-c56488c97e23](https://github.com/TencentBlueKing/bk-sops/assets/42019787/f3fedbdb-192c-46ca-bd5a-7fdf429d44ac) 实现方案: * 基于 `/taskflow/api/status` `/apigw/sops/get_task_status/` 进行改造 ![企业微信截图_2883a5d7-5f3e-4947-a64e-aa4a913d8e8d](https://github.com/TencentBlueKing/bk-sops/assets/42019787/7f86a36e-e438-4d6f-acaf-b9dd31e99747) * 兼容方案:感觉网关的获取状态不好动,可能其他系统有依赖,需要梳理