Mr.Han

Results 8 comments of Mr.Han

公司:医渡科技 地点:北京 使用 Crane 的业务场景: 1、借助Crane的推荐能力,逐步规范用户合理配置request,减少资源的浪费现象,主要集中在用户配置较大的request但是实际使用很少,造成K8S可分配资源不足,服务无法调度问题 2、借助Crane的推荐能力规范request配置,从而改善K8S原生调度器调度不均衡的案例,因目前版本较低,无法使用Crane提供的调度器,后期升级版本后会引进使用 3、借助Crane的成本展示模块,展示每个部门的成本,将成本量化、可视化展示给用户,让各部门清楚的知道成本是否被合理利用。 对 Crane 的期望以及需求: 1、希望Dashboard页面添加搜索功能,可快速检索模板服务推荐值 2、希望增加Node维度的相关指标,如metrics里面的推荐参数添加节点信息,统计此节点上的container全部推荐值,因为这有利于用户在不采用推荐值或调研阶段能够获取到实际request值与推荐后的request值的差别,从而可以展示出节点可优化空间。【目前我只能借助excel表格统计推荐request值来预估节点request优化百分比】 是否允许将您的公司作为 Crane 的使用案例: 是

> 你是在什么样的场景下,需要管理 100 多个 Prometheus 数据源呢 我们主要是为了接管众多Prometheus集群的告警。目前有近200个私有K8s集群,均部署了Prometheus ,某些指标我们希望对全部集群生效,但是其中几个集群可能不侧重这个指标,需要排查这个集群的告警,目前需要排除的话只能手动关联需要关联的数据源,但是集群多的情况下,点击关联可能需要点上百次。不是很方便。

多谢多谢!等好消息

> 如果突然又可以連上了應不應該又自動重新監測呢? 需要监控,因此建议是定期去检测数据源可用性

> 数据源都是内网互通吗???我现在使用异地机房的数据源就不能添加。强制验证。 数据源是分布在各机房的,不过都可以通过http进行访问

> 集群,请问这是怎么一个用户场景,可以分享下吗,谢谢。 大量的私有云集群,一个集群一个Prometheus集群

希望能够支持这个需求;目前面临着大量的因为数据源异常导致错误的发送告警恢复的通知,且难以知道数据源是否正常,如果要实现这类需求,还需要采用其他类似uptime-kuma的工具做集成

> > 目前面临着大量的因为数据源异常导致错误的发送告警恢复的通知 > > 现在的代码逻辑确实是查不到数据了就恢复,但是前提是查询请求本身没有报错,你确定在你的环境里出现了:数据源已经连不上了即查询失败,仍然报了恢复? 目前看是的