开发者社区 > 云原生 > 云原生可观测 > 正文

通过依赖自建系统定时跑任务检查指标,然后调用钉 钉的 webhook 或其他运维系统的 webhoo

已解决

通过依赖自建系统定时跑任务检查指标,然后调用钉 钉的 webhook 或其他运维系统的 webhook 发出告警,流程中存在哪些不足?

展开
收起
游客lmkkns5ck6auu 2022-08-24 10:46:23 390 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    • 自建系统的稳定性需要自己负责,如果告警系统的稳定性比运维系统更差,则告警系统的存在无意义。其次,随着整个集群开服的 region 越来越多,配置越来越复杂,自己维护配置并保证配置全球生效难以实现;

    • 依赖手工排班,极易出现漏排或 backup 缺失;

    • 告警触发阶段触发条件非常单一,难以在告警触发链路上增加额外的业务逻辑, 如动态阈值、动态打标等;

    •应急处理阶段,信息发送非常频繁,无法主动认领和主动关闭。系统出现问题时,同类告警会在群里高密度发送,无法主动屏蔽告警也是缺陷;
    • 事后复盘优化的时候没有数据支撑,无法根据已有的告警统计信息来优化整个流程。

    以上内容摘自 《2021 阿里云可观测技术峰会演讲实录合辑(上)》 电子书,点击https://developer.aliyun.com/ebook/download/7762 可下载完整版

    2022-08-24 15:45:56
    赞同 展开评论 打赏

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

热门讨论

热门文章

相关电子书

更多
企业运维之云原生和Kubernetes 实战 立即下载
可视化架构运维实践 立即下载
2021云上架构与运维峰会演讲合集 立即下载