SRE技术保障平台-盯屏中心TAC在混合云项目中的应用实践

简介: SRE技术保障平台-盯屏中心TAC在混合云项目中的应用实践

SRE技术保障平台-盯屏中心(TAC - TAM Alarm Center)是阿里混合云现场运维对监控报警解决方案的最佳实践,为混合云客户提供灵活的、多样化的监控报警解决方案,以此提升混合云平台和产品的故障发现率,保障客户系统的稳定运行。TAC功能丰富、多样且灵活,能够覆盖多种应用场景,满足多样的监控及告警需求,本文选择部分项目的最佳实践和应用进行展示。

1.基本功能

1.1告警接入

图1:封神榜告警接入方案.png

图1:封神榜告警接入方案

  • 产品团队:研发团队提供监控能力
  • 封神榜:封装产品监控,并调用TAC的API网关接口上报告警
  • TAC:提供API网关服务,并进行告警的展示和通知

1.2告警通知

  • 场景:某项目现场需要将平台侧P0级告警通知给相关人员以及时获取监控告警信息。
  • 方案:使用TAC本身告警汇聚能力汇聚云内多渠道告警,并使用TAC集成的告警通知服务实现告警通知。

图2.png

图2:钉钉告警效果展示

图3.png

图3:短信告警效果展示

1.3站点监控

  • 场景:某客户现场有应用监控需求,希望TAC可以定时监控该项目的门户网站和运营管理平台。
  • 方案:使用TAC集成的站点监控HTTPCODE和钉钉方式实现监控告警通知。

图4.png

图4:站点监控效果展示

2.扩展解决方案

2.1 Maxcomput和Datawokrs资源告警

某项目使用Maxcomput和Dataworks两个产品承载主要的业务应用,需要对Maxcomput的资源使用情况和Dataworks的槽位使用情况进行监控并告警,以在第一时间发现问题,并通知运维人员处理。

图5.png

图5:Maxcomput和Datawokrs资源告警效果展示

2.2告警推送第三方

某项目需要将云平台的告警通过钉钉发送给现场驻场或相关负责人,减少盯屏的人力成本,从而减少问题处理的时间,最终减少对业务的影响时间。

图6.png

图6:告警推送第三方方案

数据采集:使用TAC实现告警采集

  • 平台核心实例资源使用率告警管理、P0/P1告警统一管理
  • 应用业务可用性监控告警

数据推送:TAC调用api网关接口,将告警数据写入消息中心。
数据接收:通过消息中心服务将告警数据推送到钉钉机器人,钉钉群接收消息中心推送的告警数据。

图7.png

图7:告警通知效果展示

作者:黄家亮

阿里云智能GTS-SRE团队资深技术支持工程师

7年IT从业经验超3年阿里专有云运维管理经验,现就职于阿里云智能GTS-SRE团队负责运维开发工作,期间深度参与并负责铜雀、TAM企业服务运营管理平台及TAC报警中心三个系统从0到1的建设工作,有效提高专有云运维能力和效率。

我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。

image.png

相关文章
|
存储 运维 监控
什么是 SRE?一文详解 SRE 运维体系
什么是 SRE?一文详解 SRE 运维体系
4350 1
|
城市大脑 运维 监控
阿里速度! SRE团队全力保障多地健康码顺利上线
如何精准防控,统筹疫情期间的各项工作,有序稳健恢复经济社会秩序,成为当务之急。对此,阿里巴巴快速反应,除各种物资支持、政策响应外,还配合多地政府开发健康码,充分运用大数据手段助力疫情防控和复工复产,实现数字化防疫,让政府相关人员更快速、更清晰、更精准地进行防控管理决策。
阿里速度! SRE团队全力保障多地健康码顺利上线
|
4月前
|
运维 安全 数据可视化
南方电网携手阿里云飞天企业版,打造能源数智新标杆
2025年6月,中国首个连续运行的区域电力市场——南方区域电力市场,正式进入连续结算试运行阶段。南方区域电力市场,覆盖广东、广西、云南、贵州、海南五省区,也是目前全球规模最大的统一出清电力现货市场之一。作为南方电网调度云核心云服务商,阿里云凭借多年电力行业深耕经验,全面护航区域电力现货市场业务稳定运行,助力国家能源安全与“双碳”目标实现。
368 0
|
4月前
|
弹性计算 运维 资源调度
重构核心业务稳定性:阿里云飞天企业版弹性计算RAS体系
在数字化时代,云平台已从“IT资源池”升级为企业业务的关键底座。核心交易、生产调度、数据平台、在线服务一旦发生非计划中断,影响的不只是系统可用性,更可能带来订单损失、履约中断与品牌风险。有研究指出,业务宕机的损失会以“分钟”为单位快速放大,稳定性因此成为企业面向客户与市场交付服务的“确定性能力”。
208 0
|
监控 安全 Devops
阿里云容器服务飞天敏捷版详解
阿里云容器服务提供了公共云、专有云以及飞天敏捷版三种部署形态,全方位地满足企业客户利用CaaS(Container as a Service)进行应用现代化上云的需求。飞天敏捷版包含了阿里在公有云上的最佳实践和Docker企业版的安全能力,打造企业一体化化的本地容器云平台方案。
27825 1
|
10月前
|
人工智能 运维 自然语言处理
电力+AI,「国网云智」重构电网运维的"超级大脑"
在深夜,当城市楼宇渐入梦乡时,在国网信通公司云运营中心还有一批运维工程师默默守护着大家微弱的灯光、此起彼伏的沟通声、咔咔的键盘敲击声响彻着每个工位。 当某系统的异常警报亮起时,工程师迅速利用「国网云智」定位问题,屏幕上即刻弹出详尽的排查方案及解决方案;而另一侧的监控员框选闪烁的告警区域,系统已自动锁定故障点,并在生成检修方案上标注了对应的工具清单和操作优先级。
1025 0
|
人工智能
国家电网与阿里巴巴达成AI合作!
国家电网与阿里巴巴达成AI合作!
1137 17
|
SQL 移动开发 Java
“\r\n### Error updating database. ,解决问题的思路在于认真参考给的错误提示,看错误提示,这里我的数据表,没有写primary key 导致的
“\r\n### Error updating database. ,解决问题的思路在于认真参考给的错误提示,看错误提示,这里我的数据表,没有写primary key 导致的
|
运维 监控 开发者
铜雀:阿里云智能巡检管家
作为阿里云云平台告警信息与监控的统一门户,铜雀专注于智能化巡检及问题诊断,是阿里云SRE混合云TAM和驻场服务团队日常工作中的首要工具。它能将TAM和驻场服务团队从日常繁琐的巡检工作中解放出来,将精力投入到更有价值的客户服务中去,通过打通云平台侧、租户侧及应用侧的信息,辅助应用运维及优化,并通过工具化手段提升现场问题分析定位的能力和速度。
铜雀:阿里云智能巡检管家