bk-bcs
bk-bcs copied to clipboard
蓝鲸智云容器管理平台(BlueKing Container Service)
问题描述 =========== 在创建新的集群时,zk 中不存在 /blueking/framework 这个 key。bcs-scheduler 在启动的时候会去 fetch framework id,但是因为不存在所以会直接失败。 重现方法 ================ 手动操作 zk,删除某个已存在集群的 /blueking/framework 这个 key,然后重启 scheduler 即可复现问题。 关键信息 ========= 相关版本: ``` Version :v1.25.0-alpha.4-22.03.22 Tag :v1.25.0-alpha.4 BuildTime: 2022-03-22T11:11:03+0800...
feat: Helm产品功能|根据设计优化功能
问题描述 =========== 当所有指标都没有返回有效推荐值,如 webhook 返回 false 时,GPA 会将推荐值设置为当前副本数。但是当前副本数获取的是 gpa.status.currentReplicas,也即是被控制对象的 status.currentReplicas。 假设有个 workload 当前副本数为5,,且一个使用 webhook 模式的 gpa 控制,webhook 在返回一次 scale=true, replicas=3 之后,一直返回 scale=false。 如果 workload 缩容时间较久时,有可能出现 workload 的 spec.replicas 为3,但 status.currentReplicas...
**feature相关背景与描述** 整体的 Makefile 中缺少 GPA 相关配置,目前相关构建配置只存在于各自的目录下 **解决方案描述** 整体的 Makefile 增加 GPA 相关配置 **其他可行性方案分析** (分析你已经考虑过的其他可行性方案,方案对比优劣等) **其他补充信息** (其他信息补充,例如截图,性能对比数据等)
**feature相关背景与描述** 当producer出现宕机或者因为选主间隔导致job缺失时,需要有补算机制;当job计算错误时,则需要重算。 **解决方案描述** 重算方案: 1. producer每次发送一个job时都往task表里新增一条job信息,status为wait 2. worker do policy时如果发生了error,更新job信息中的status字段为fail 3. producer定时load status为fail的job,重新发送至消息队列,并更新status为wait,retryTime +1 4. 如果worker do policy success,将job信息删除即可 5. 重试2次依然为fail的job保留在表中,提供命令行触发重算机制,命令行重算时,producer只取retry time >=2且状态为fail的job 补算机制: 1. producer在每次send job之后更新对应资源和时间维度的job最新时间 2. producer启动时,另外启动一个补算go routine,从db里获取记录,计算是否需要补算,是的话生成缺失的job...
**feature相关背景与描述** 在原地更新中,当更改字段不止镜像字段时,会更新失败。但当前的失败日志会将前后的 gameworkload yaml 都输出,显示过于复杂,难以找到是哪个字段导致的更新失败 **解决方案描述** 更新失败时,将前后的差异字段输出到日志和事件,便于定位失败原因 **其他可行性方案分析** (分析你已经考虑过的其他可行性方案,方案对比优劣等) **其他补充信息** (其他信息补充,例如截图,性能对比数据等)
**feature相关背景与描述** 当前删除 gameworkload 和对应 CRD 时没有校验机制,会导致 - 误删 gameworkload,导致服务不可用 - 误删 CRD,所有对应 gameworkload 全部被删除,造成严重后果 **解决方案描述** 使用 K8S 的 admission webhook 机制,在删除 gameworkload 或 CRD 时进行校验。为方便按验证策略查看 gameworkload,将校验字段放在 labels 字段中。在 labels 中增加...