SLS新版告警入门——分组评估

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 介绍新版 SLS 告警中的分组评估功能,分组评估是告警监控规则中的一个参数。当告警监控系统对查询和分析结果进行计算时,可基于特定字段进行分组,每个分组单独评估触发条件并触发告警。即您可以使用一条告警监控规则同时监控多个目标,并对每个分组进行独立的告警管理和事件管理。

在新版告警中,我们可以使用查询分析语句来进行日志查询,并对结果集设置告警。其中,当我们希望对查询结果进行进一步的分组时,可以使用我们的分组评估功能。


基本概念

分组评估是告警监控规则中的一个参数。当告警监控系统对查询和分析结果进行计算时,可基于特定字段进行分组,每个分组单独评估触发条件并触发告警。即您可以使用一条告警监控规则同时监控多个目标,并对每个分组进行独立的告警管理和事件管理。


例如,我们的在时序库中存储了主机和 cpu 使用率的信息,通过查询返回一个包含 IP 和 CPU 字段的结果集,如下图:

这时候我们设置告警的评估条件为 CPU > 80, 那么在任何一台主机的 cpu > 80 的时候,都会触发告警,若只是想要这样的效果,那么到这里就可以了。


但这时候我们无法对不同的 ip 做不同的处理,如果想要更进一步,例如由于主机的归属不同,告警的时候想要通知不同的接受人,那么就需要进行分组评估了。对 ip 进行分组之后。告警的评估条件会对每个分组进行单独评估,最后根据评估结果进行告警。同时,分组的字段会自动加入 label 中,提供给之后的行动策略作为判断条件。


简单来说,如果我们不使用分组评估功能,而想要根据查询结果的某个字段进行分组,并分别通过不同渠道告警,那么只能通过在查询语句中添加 group 语句,并创建多个告警来实现了。


使用场景示例:


CPU使用率


多个服务器的指标数据存储在一个时序库中,但希望每个服务器的CPU使用率(cpu_util)超过95%时,日志服务可以分开发送每个服务器的告警信息。针对此需求,您可以在创建告警监控规则时设置分组评估。


在时序库中,选择我们要查询的指标 cpu_util,这时会自动帮我们填入对应的查询语句

* | select promql_query_range('cpu_util') from metrics limit 1000

点击“另存为告警”按钮

这时会打开新建告警界面,并会自动将刚才的查询语句引入

点击语句输入框,可以查看详情

可以看到项目,指标库等详细信息,并可以对查询语句进行修改,点击预览可以查看数据图表

返回刚才的界面,设置好告警触发的条件为“有数据匹配” value > 95,这里 value 即是指 cpu_util 的值

默认情况下,使用时序库时,分组评估会自动选择“标签自动”选项,在该选项下,会自动对时序指标进行分组。

如果选择不分组,那么在当前状况下,任意一台或者多台主机的 cpu 大于 95 都会触发一次告警。

如果我们选择标签自定义,并选择 ip 字段,那么每次评估有一台主机满足条件会触发一次告警,有多台同时满足的话,就会触发多条告警。如果想要给不同的主机设置不同的告警接收人,需要配合行动策略进行设置。

在行动策略编辑时,可以指定条件和行动组,如下图,


如之前所说,用于分组评估的字段会被加到标签中,所以这里就指定了 ip 作为条件,并指定对应的接收人。将行动策略保存之后,在告警编辑页面进行选择就可以完成全部的告警设置。


监控OSS访问日志

监控OSS访问日志时,希望每分钟发生500错误超过1000次的Bucket可以分开告警。针对此需求,您可以在创建告警监控规则时设置分组评估。


在查询框中输入 http_status=500 可以查询所有 http_status 为 500 的日志记录。

进一步将语句改为

http_status=500 | select bucket,count(1) as pv group by bucket  order by pv desc

可以看到各个 bucket 的记录数。

我们将条件设到 pv > 60 得到一条结果。点击右上角“另存为告警”


这里我们将分组评估设置为 bucket 字段,同时将触发条件设置为“有数据”

这样就完成了告警的设置。如果想要对不同的 bucket 做不同的告警处理,可以参考 cpu 的场景在行动策略中进行设置。

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
目录
相关文章
|
Java 中间件
SpringBoot入门(6)- 添加Logback日志
SpringBoot入门(6)- 添加Logback日志
506 5
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
562 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
Java 中间件
SpringBoot入门(6)- 添加Logback日志
SpringBoot入门(6)- 添加Logback日志
576 1
|
Oracle 关系型数据库 数据库
【赵渝强老师】Oracle的参数文件与告警日志文件
本文介绍了Oracle数据库的参数文件和告警日志文件。参数文件分为初始化参数文件(PFile)和服务器端参数文件(SPFile),在数据库启动时读取并分配资源。告警日志文件记录了数据库的重要活动、错误和警告信息,帮助诊断问题。文中还提供了相关视频讲解和示例代码。
352 1
|
Java Shell Linux
【Linux入门技巧】新员工必看:用Shell脚本轻松解析应用服务日志
关于如何使用Shell脚本来解析Linux系统中的应用服务日志,提供了脚本实现的详细步骤和技巧,以及一些Shell编程的技能扩展。
569 0
【Linux入门技巧】新员工必看:用Shell脚本轻松解析应用服务日志
|
XML Java Maven
Spring5入门到实战------16、Spring5新功能 --整合日志框架(Log4j2)
这篇文章是Spring5框架的入门到实战教程,介绍了Spring5的新功能——整合日志框架Log4j2,包括Spring5对日志框架的通用封装、如何在项目中引入Log4j2、编写Log4j2的XML配置文件,并通过测试类展示了如何使用Log4j2进行日志记录。
Spring5入门到实战------16、Spring5新功能 --整合日志框架(Log4j2)
|
运维 Serverless API
Serverless 应用引擎产品使用合集之sls日志告警调用函数计算,出现抛出的结果异常,是什么原因
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
|
Java 数据库连接 数据库
Spring日志完结篇,MyBatis操作数据库(入门)
Spring日志完结篇,MyBatis操作数据库(入门)
|
存储 运维 Serverless
函数计算产品使用问题之日志告警不生效,一般是由于什么造成的
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
191 0
|
SQL 调度 Swift
【深入浅出】阿里自研开源搜索引擎Havenask日志查询
本次分享内容为Havenask的日志查询,文章包含了具体查询步骤和举例、实操演示,希望可以帮助大家更好的使用Havenask。
55570 0

相关产品

  • 日志服务