智能告警——企业IT系统神经中枢

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 本文记录阿里云SLS丁来强在2021阿里云开发者大会--基础设施的云上管控分论坛上的分享

image.png

人体的8种感觉

我们都知道人体神经系统非常复杂,由各个末梢信号后经由脊髓、大脑中枢处理后获得如下众所周知的5种感觉:

  • 视觉——眼睛、听觉——耳朵、触觉——皮肤、嗅觉——鼻、味觉——口

除此之外,人体其实还有另外3种重要的感觉,分别是:

  • 内脏觉——内脏、本体觉——关节肌肉、前庭觉——前庭神经核


其中内脏觉获取来内脏壁信号,产生内脏相关的感觉例如饥饿、饱腹、尿急等。本体觉获取关节肌肉等信号,感知当前身体处于一个什么样的姿势和运动状态。前庭觉则通过各方信号,获得平衡方向感,并过滤信号以便集中精神。

不用说,任何一个感觉出了问题,都会造成非常严重的后果。人们健康快乐的生活离不开这些神经系统的正常工作。


企业IT系统的感觉系统

企业IT系统同样存在各种感觉——对计算、网络、存储、安全、管控等系统的监控运维。数字化信息化的今天,企业组织能否健康、稳定、持续的发展也离不开其IT系统的神经系统——监控运维系统(更宽泛的说法叫可观测性系统)的正常工作。

但不同于人类物种经过几百万年的统一演化为基本一致性,企业IT系统的告警监控系统(可观测性系统),还存在非常大的多样性,例如如下使用开源方式对容器化部署形态的IT系统的监控存在多种方案组成:

image.png


传统告警系统大量碎片化、无体系的神经孤岛,带来了非常多的痛点,包括重复建设、监控智能差、告警风暴、触发不人性化、无法闭环等。

image.png


SLS告警为企业IT系统提供智能神经中枢

作为新一代的云原生可观测平台,SLS支持多种数据源的一体化接入、一站式的存储、加工、分析、可视化、监控、投递、三方对接,为企业IT系统的使用者(包括开发运维、监控人员、商务、安全运营人员等)提供了最快、最高效的观测体验。

image.png

作为SLS的一个子系统,SLS告警为IT系统重现构建了智能神经中枢。

image.png


目前已经大量被阿里云平台的企业用户使用,每天从海量的数据中监控识别产生告警、管理处理并通知与响应,可证明的灵活适配与稳定可靠性。

image.png


使用SLS告警可以给企业IT系统的神经中枢提升易用弹性、可靠性以及功能灵活性,并降低成本、告警噪音以及减少损失。

image.png

下面从几个侧面了解一下SLS告警是如何为企业IT系统提供智能的神经中枢的。

接入三方告警——兼听则明

类似于人体的多种感觉从多方获取信号设置告警(例如听到天气预报说明天会下大雨,而出门带好雨伞),SLS告警也支持从其他多种流行监控系统中直接接受告警,并进行智能处理与响应。支持的三方系统包括Promethues告警、Grafana告警、Zabbix告警等。

image.png


统一信号分析——智能告警监控

SLS作为可观测平台,已经接收了IT系统的大量信号(日志、时序、跟踪等),可以直接使用SLS告警从中挖掘出大量信息(告警),SLS提供了一套查询分析语法,全面覆盖现在流行的时序、分析型语法,兼顾强大灵活与易上手。

image.png

不仅如此,还支持多种数据的协同关联,就像闭上眼睛,拿一个水果,也可以通过触觉、嗅觉、听觉等判断出这是一个杯子、还是一个苹果等。

image.png

智慧信号处理——ML算法

就像人的脊髓、大脑等会自动参与信号处理得到更高级的感觉信息一样,从海量的数据中产生信息包括告警,离不开机器学习的支持,SLS提供多种丰富流行与顶级算法,更精准高效的产生告警。

image.png

千里眼——全局监控

人的感觉系统是有距离限制的,触觉限制了手能够到的地方,视觉可达数公里。但IT企业系统可能分布在各个国家、城市系统或各个隔离的账号体系中,SLS告警支持跨库、跨地域、跨账号的对数据进行远程监控,就像千里眼一样。

image.png

知识库——内置规则库

人类善于学习积累来扩展感觉系统,一个小朋友在摸过看过或碰触装了热水的玻璃杯后会记住这个感觉,下次再看到冒着热水的玻璃杯就会得到一样的信息。SLS告警的内置告警规则库,提供数百个这样的知识,开箱机用。

image.png

告警降噪——IT系统的前庭觉

一个男生在玩《王者荣耀》时,或一个新青年在看《光荣与梦想》时,通常会自动忽略周围的大部分信息,这其实是前庭觉在起作用。在企业监控告警中,也需要通用的机制:在收到一个主机宕机的严重告警时,IT运维同学加紧迁移系统中,希望自动忽略该主机上一连串的其他告警的。亦或者在晚上休息期间,非严重告警,要被自动忽略掉。SLS告警的管理功能(告警策略、行动策略等),可以提供静默、合并、合并降噪等功能,也支持根据节假日、工作时段等灵活调整通知策略等。

image.png

告警态势大盘——IT系统的本体觉

类似于本体觉让你闭上眼睛也能感知自己是站着还是躺着,处于什么姿势一样。SLS告警的多张告警大盘让使用者轻松掌握目前整体告警态势与进展。

image.png

记事本——事务管理

人的神经系统不能一下次并行处理多个事务(例如很难一边写作业、一边玩游戏),也不容易记住很多事情。IT系统运维人员面对许多并行告警时,同样如此,SLS的告警事务管理提供了这样的便利,就像记事本一样帮助他们管理好各个告警的状态,及时有效的跟进或处理。image.png

神经系统响应——行动管理

一如人体对于感觉会做出反应(如看到危险,要躲避一样),SLS告警提供多种通知与响应形式,包括各种渠道:

image.png

也企业组织下还支持贴心的功能如:值班表(轮岗代班等)、告警升级等。

image.png

进一步参考

image.png

  • 更多SLS的系列直播与培训视频会同步到微信公众号与B站,敬请留意

image.png


相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 运维
运维告警别乱飞了!AI智能报警案例解析
运维告警别乱飞了!AI智能报警案例解析
719 0
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
1522 3
|
10月前
|
编解码 监控 算法
CDN+OSS边缘加速实践:动态压缩+智能路由降低30%视频流量成本(含带宽峰值监控与告警配置)
本方案通过动态压缩、智能路由及CDN与OSS集成优化,实现视频业务带宽成本下降31%,首帧时间缩短50%,错误率降低53%。结合实测数据分析与架构创新,有效解决冷启动延迟、跨区域传输及设备适配性问题,具备快速投入回收能力。
697 0
|
运维 监控 前端开发
Zabbix告警分析新革命:DeepSeek四大创新场景助力智能运维
面对日益复杂的IT环境,高效分析监控数据并快速响应成为运维的关键挑战。本文深入探讨了DeepSeek与Zabbix结合的创新应用,包括一键式智能告警分析、Zabbix文档知识库助手及钉钉告警增强功能。通过部署指南和实用脚本,展示了如何提升故障排查效率,为运维工程师提供高效解决方案。
1238 5
|
人工智能 运维 监控
Zabbix告警分析新纪元:本地DeepSeek大模型实现智能化告警分析
本文由Zabbix中国峰会演讲嘉宾张世宏撰写,介绍如何通过集成Zabbix监控系统与深度求索(DeepSeek)AI助手,构建智能化告警处理方案。该方案利用Webhook机制传递告警信息,借助DeepSeek的智能分析能力,帮助运维团队快速识别问题根源并提供解决方案。文章详细描述了技术架构、环境搭建、Webhook配置及实际案例,展示了AI在运维领域的应用前景和优势。
2244 0
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
1331 0
|
机器学习/深度学习 运维 自然语言处理
抑制告警风暴—SLS告警智能合并发布
SLS最新推出了告警智能合并能力,让用户只需一些极简的配置,便可开启告警的智能降噪,抑制告警风暴。
1943 1
|
SQL 机器学习/深度学习 运维
一站式云原生智能告警运维平台——SLS新版告警发布!
本文介绍什么是云原生可观测性需求以及告警限制,介绍一站式云原生智能告警运维平台——SLS新版告警。
15731 4
一站式云原生智能告警运维平台——SLS新版告警发布!
|
SQL 机器学习/深度学习 弹性计算
【新功能】智能巡检支持更加灵活的告警
主要介绍如何通过SLS的告警2.0的能力去管理【智能巡检】任务产生的异常事件。通过实体维度和特征纬度的单独配置您需要的告警事件。
654 0