开发者学堂课程【如何建立高效告警体系提升日常运维效:如何建立高效告警体系提升日常运维效】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/940/detail/14751
如何建立高效告警体系提升日常运维效
内容介绍:
一、为什么需要智能警告平台?
二、ARMS智能告警平台
三、多告警源接入
四、应对告警风暴
五、AIOPS智能告警平台-收费模式
一、为什么需要智能警告平台?
1、传统告警系统面临的问题
①企业越来越多商运营需要大量的监控系统,比如说需要 skyok 做 tracy ,普顿休斯做 matures ,一套 es 或者云上的日服务做日志的相关监控,以上已经包括三种系统,不包括云监控等为平台提供监控的自身平台。众多平台没有统一的监控告警,需要维护联系会非常复杂,这是一个大的管理问题。
②其次,它难以形成形同上下文的一种关联,比如说:某个接口出现问题,可能云监控的拨测报警,日服务的日志也在报警,甚至是应用监控也在报警。这些报警之间毫无关联,此类问题是云上属于较大的痛点,同时无效告警也比较多,无效告警即是业务系统出现非常关键故障时,其他系统也可能出现相关的告警,且告警较多会把关键信息淹没,导致无法正确识别告警。
③最后一点即现在会发生报警较多却没人管的情况,即便有人管理也无法得知管控情况,关键性的告警从发生到修复需要的时间有多长,每天有多少是在处理,企业的 attr 能否计算得出,这些都是云上做有监控系统没有告警平台去解决所产生的问题。
二、ARMS智能告警平台
快速接入各类告警信息,通过自动去重、规则压缩、算法降噪,帮助运维团队减少告警,避免告警风暴。
通过分派、排班、通知等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。
ARMS 智能告警平台解决以上问题,集成众多监控系统包括 ARMS 本身的应用监控,云上的云监控还有日志服务等,本身集成十几家监控系统,提供开箱即用的能力。同时为了更好的写作,把协同的工具流放到钉钉中,用户可以通过钉钉来处理和运维相关的告警。提供用户分析的大盘,帮助用户分析告警是否每天有人处理,处理的情况如何。
三、多告警源接入
1、一键接入ARMS智能告警平台
告警的具体步骤:从事件源中产生一个事件,可以理解为告警的 event ,事件本身不会直接发送进来,需要和告警联系人匹配后才可生成告警流程。如图所示流程如下:
使用该系统通常出现的问题即:配有事件不知道如何产生告警,必须事件加联系人才能等于告警。
2、自定义集成-灵活接入任意告警源
第二点:使用告警系统默认没有接入,提供灵活的告警源的接入方式,按照自定义的接入方式,传入 event ,帮助清洗字段最后形成告警平台可以理解的告警。
比如:存在一个工单系统,其中产生比较重要的 event ,往告警平台传入的时候,可以把工单系统的报警警事件通过 web hook 的方式发放到告警平台,识别设置相关的内容,通过电话短信的联系方式通知到用户。本质上是接收事件,用户将告警团队配置到平台,平台将告警事件与团队的联系人相匹配发送。
具体操作如下:
首先打开控制平台,左侧列表最后有告警管理的单独模块,打开首先看到概览,其中包括接入的过程以及事件处理的流程等。比如说:已经使用应用监控,在应用监控中先创建一个告警 ruler ,条件应用响应时间,待用次数大于一次时,产生告警。此时,产生 event 事件,在通知策略位置选择不指定通知规则,点击保存。产生事件会自动的出现在概览位置,告警规则匹配后会产生各种事件展示于屏幕。如图所示:
若是其他的服务需要到指定服务区把规则设置完好。将之前相应的事件传递过来,完成后可在报警的事件列表中看到。事件发送进来后进行降噪处理,识别告警事件最多的关键词是什么样,观察哪些关键词高度重复,哪些内容是高度匹配的,进行压缩。也可以根据给出的关键词,比如:不希望出现测试告警,就可将屏蔽字进行屏蔽,则该类事件不会传入到告警事件中。告警事件传入后,所有事件均会传入到事件池中,则需要对事件进行分配,明确谁接收事件,谁对事件进行通知和排班的管理。比如:按照alertname或者其他的字段对于pod状态进行一个匹配,生成一个告警。可以在联系人中配取相关的联系人也可以导入,导出,配置钉钉机器人等统称为联系人。之后在通知策略中进行进一步的配置,在通知人/排班位置选择机器人或者真人接收告警。或者通过工单系统比如 general,desk 平台进行对接,保证信息可以传入抵达。配置完通知策略,再产生告警时可以收到相关告警,比较推荐使用钉钉来接收相关的报警,如图所示:
接受到如图所示的告警,用户仅需拥有钉钉账号,不需要了解相关信息或者登录平台,直接对告警进行认领,因为钉钉系统是分度集成,在认领完后可进行解决,该过程均会记录到活动中。用户明确知道该过程有人处理,同时针对该情况每天进行统计,告警的数量,哪些没处理以及整体的处理情况如何。
若团队大,较多的运维同学,存在 l1,l2 分层运维通选时,使用排班功能,对线上进行排班(如图所示),同时也可以进行升级策略的管理,比如:十分钟内没人认领时,可以对重要告警进行升级,属于告警的一种能力。相关的运维管理或者总监还需要了解多个告警每天都在发生,经过一段时间后是否有收敛或者说平均的 ngter 应用平台工具后是否有提升。可以用告警大盘了解每天告警平均响应的时间,处理情况以及报出 mttx 的统计。根据需求将相关的数据放入到用户的大盘或者是用户的普修斯数据进行二次开发。
四、应对告警风暴
告警不仅是管理和收集的过程,很多时候虽然发现告警,但是是否可以在告警的处理过程中阿里是否能给出建议或参考?首先,阿里会基于类似应用监控的产品提供一系列默认报警的能力,默认报警,提供相关的诊断能力,具体如图所示:
其中的 insights 功能,针对告警的默认情况生成报表,在报表中告知用户当前突针对原因,整体检测哪些原因导致。一般来说,诊断漏记和普通的诊断漏记一样,应用图针线检测多个主机是否有图针,是否影响多个接口有图针,若接口的相应时间的图针和类型一致的情况下,接口中的那些方法先有的图针,传递的路参是什么?为什么有此类图针?能否给出案例告诉用户哪些萃词较慢?通过报告做出提供,如图:
可以结合当时打出现成的堆栈再次确认是 matches , handler 的方法,结合上下文对数据进行定位和分析。这是 ARMS insights 针对告警问题相关的深入报告。快速整合上下文包括普顿休斯监控以及监控的相关数据均整合到相关报告里,进行全方位检测来收敛相关问题。
五、AIOPS智能告警平台-收费模式
关于收费问题,该服务本身存有事件不收取费用,仅收取短信,电话,邮件基础费用,可以认为仅是通道费用。(如图)