Tag-使用监控的新姿势

本文涉及的产品
云监控,每月短信1000条
简介: 关键词:云监控,Tag,分组,应用分组,自动监控,redis监控,cloudmonitor-group,自动发现随着企业云资产越来越多,每天生产销毁变更的资源也不在少数,企业用户对这些资产的管控难度也越来越大,尤其是监控领域。每生产或者销毁一个实例,就要人肉为其配置管理相关监控报警,这需要非常大的人肉管控成本,直接block了用户使用云监控,从而给用户的可用性带来威胁。

打个Tag就完成监控了?--使用监控的新姿势

关键词:
云监控,Tag,分组,应用分组,自动监控,redis监控,cloudmonitor-group,自动发现
 

背景

 
随着企业云资产越来越多,每天生产销毁变更的资源也不在少数,企业用户对这些资产的管控难度也越来越大,尤其是监控领域。每生产或者销毁一个实例,就要人肉为其配置管理相关监控报警,这需要非常大的人肉管控成本,直接block了用户使用云监控,从而给用户的可用性带来威胁。
 
随着的TAG的成熟,很多企业开始使用TAG来实现资源的分类、运维、财账等。基于TAG的运维监控,也是其中非常重要的一个场景。因此tag和云监控打通,将能够实现基于TAG的自动化监控,只要用户打上tag,就能够自动设置上相应的监控,是很多大用户非常期待的,这将有助于用户大大降低监控管理成本。
 
先满足,让用户资源能够被监控到这样一个最基本的诉求。
 

方案

云监控中有应用+应用分组的资源管理模型,可以实现跨region,跨产品的资源监控管理。同时,基于应用分组+监控模板,可以对一组资源快速实现监控覆盖,甚至是自动化监控。
 
然而,对于大用户来说,以头条为例,大几万的资源,对这些资源的分组也达到几千个,如果这些资源是通过人肉方式创建,几乎是不可想像的。好在一些用户已经通过tag,将这些资源作好了分组。我们需要做的是,将这些分组自动对应到云监控的应用分组,自动的带上监控。
 
综上,tag和云监控打通将给用户带来极大的便利。
 
 

详解

目前云监控和TAG服务集成,支持了两种通过TAG完成监控的方式,来满足不同用户的需求:
 

一,给资源打下固定的Tag键:cloudmonitor-group

这个tag键对应的所有值,都会自动创建一个云监控的应用分组,在分组中可以提供资源使用率的图表,以有分组维度的监控管理。
 
image.png
 
如上图所示,一共创建了两个TAG,一个Key:cloudmonitor-group value:为空,另一个key:cloudmonitor-group,value:test。
两个tag的value分别创建了一个监控的应用分组,创建分组时,默认使用的监控模板名为:‘’常用基础模板“,默认使用的报警联系人组为:”云账号报警联系人“。
 
分组创建完成后,用户可以根据需要,手动修改监控模板和报警联系人。
 
 

二,通过指定的TAG key来完成监控:

 
 
登录云监控控制台,在应用分组菜单中创建应用分组:
image.png

 image.png

 
 
 
如图:可能通过指定的tag key来创建分组, 并支持过滤指定的tag值,如需要把tagkey=owner,tagvalue包含“开发”的所有tag值创建分组。
 image.png

 
同样,默认使用的监控模板名为:'常用基础模板',默认使用的报警联系人组为:'云账号报警联系人'。
 
用户可以根据需要,手动修改监控模板和报警联系人。
 
 
另外,目前云监控也支持按实例的名称来实现对资源的自动发现,比如创建一个分组,将名称中包括'dev'的实例自动加入分组,
 

总结:

使用TAG和名称动态匹配的方式的好处是,创建一个分组后,以后创建的所有符合条件的实例,都会自动发现自动加入分组,自动被监控,从而大大降低监控配置的成本。
 

1. 目前Tag监控,只支持ecs(只支持实例,不支持网卡,磁盘等),rds,slb,redis四款产品,其他产品还需要再等待一段时间。
2. 目前一个分组里每个产品,最多只能支持3000个资源。超过3000个,不会加入分组中,顺序是随机。
3. 创建完分组,分组聚合的监控数据,需要等待5分钟左右的时间,才会看到分组级别的数据图表。
4. 创建完分组,具体的分组以及分组里的报警规则,会在后台异步创建,所以也会有几分钟的延迟。
5. 目前基于TAG创建分组都是通过订阅tag键的方式实现的,因此,后续这个tag键新创建的值,只要满足规则匹配条件,就会自动创建出一个分组。
6. 分组名称的规则是:TagKey-TagValue-1,用户可修改。

 

后续计划:

云监控的分组会继续和资源组,财务单元等企业管理方式打通,提供更多的监控视角和资源使用率视角。
同时,也会支持按分组进行授权,以帮助企业完成精细化管理的需求。

相关实践学习
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
目录
相关文章
|
26天前
|
Linux API 网络架构
【Azure 事件中心】通过 az rest --method get 如何获得Event Hub Entity 级的统计指标
【Azure 事件中心】通过 az rest --method get 如何获得Event Hub Entity 级的统计指标
|
设计模式 关系型数据库 MySQL
skywalking08 - 链路追踪tag查找配置(下)
skywalking08 - 链路追踪tag查找配置(下)
224 0
|
存储 SQL Java
skywalking08 - 链路追踪tag查找配置(上)
skywalking08 - 链路追踪tag查找配置(上)
518 0
|
存储
CousumeQueue中tag的作用
问题的提出 存在就是有意义的,那么ConsumeQueue中存消息tag的hashcode是什么目的呢?
80 0
CousumeQueue中tag的作用
|
移动开发 前端开发 数据安全/隐私保护
标签 tag
学习tag标签
83 0
|
开发工具 git
tag
tag
158 0
|
消息中间件 Java RocketMQ
Tag过滤|学习笔记
快速学习Tag过滤
|
存储 Prometheus 监控
Prometheus 告警管理--企业级Alert Manager
Prometheus作为监控告警的事实标准,提供了标准的指标采集、数据查询以及告警管理开源方案。但是同时在短信、语音、微信等告警通知渠道,告警管理的便捷方面都有缺陷。阿里云日志服务SLS致力于为用户提供统一的可观测性平台,为用户提供了企业级的AlertManager服务,解决客户在告警管理工作中遇到的问题。
|
弹性计算 运维 监控
基于Tag的自动化监控方案
简介: 关键词: 云监控,Tag,分组,应用分组,自动监控,redis监控,cloudmonitor-group,自动发现 随着企业云资产越来越多,每天生产销毁变更的资源也不在少数,企业用户对这些资产的管控难度也越来越大,尤其是监控领域。
1301 0
基于Tag的自动化监控方案