运维自动化之监控告警平台

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: Saturn平台可以解决多种监控平台产生的报警统一管控,类似监控中间件的功能,监控平台产生的告警发送给saturn, 通过saturn统一查询分析报警、控制报警风暴、自定义报警发送渠道(钉钉、电话告警),saturn还支持对收集到ES、云厂商日志服务中的业务日志检索并报警, saturn内置了中通天鸿呼叫中心免费1000条语音告警功能。

简介

Saturn平台可以解决多种监控平台产生的报警统一管控,类似监控中间件的功能,监控平台产生的告警发送给saturn, 通过saturn统一查询分析报警、控制报警风暴、自定义报警发送渠道(钉钉、电话告警),saturn还支持对收集到ES、云厂商日志服务中的业务日志检索并报警, saturn内置了中通天鸿呼叫中心免费1000条语音告警功能。
saturn.png

监控大屏

saturn-dashboard.jpg

监控策略

监控策略对产生的告警执行策略参数配置的动作,例如自建业务日志收集到ES中,我们通过配置检索策略及满足执行告警条件后,即会执行策略对应的告警动作。

strategy01.jpg

创建策略

策略分为基础监控和日志监控两种类型:

  • 告警维度:支持主机、产品线、标题、等级等维度对产生的告警匹配策略,匹配到的告警按照对应策略参数执行告警动作。
  • 重复周期与告警次数属于一对配置参数,即策略在周期时间内执行满足配置的告警次数后触发告警动作。
  • 自动恢复: 正常基础告警会发送告警和恢复告警,自动恢复代表不会收到恢复告警,收到告警后会发送一次告警后状态自动变为恢复状态。适用于日志关键告警和自定义类告警即实时告警。
  • 维护时间:是在该时间范围内产生的告警只做记录,不发告警
  • 支持多种渠道告警,钉钉、飞书、电话告警,电话告警采用中通天鸿通信有限公司呼叫中心语音消息,默认每个用户都有1000条的语音消息告警,电话告警可以有效保证告警处理及时性、保证生产业务的稳定性。

以日志监控为例创建策略,每条策略会管理对应的产品线,会自动检索es中对应命名空间和容器名称下的日志内容。同时产生告警后会自动关联产品线的负责人,并按照配置的通知渠道发送告警。具体产品线相关功能请移步到产品线管理Github了解。

es01.png

strategy_create.jpg

监控静默

对于发生暂时未恢复的告警配置静默一段时间,不发送告警提醒
创建静默的方式:

  • 告警历史中的告警记录直接创建静默
  • 可通过发送给钉钉机器人消息中的静默链接静默
  • 可通过云效平台告警管理中的静默管理创建静默

silence.jpg

ddSilence.jpg

告警记录

saturn_history.png

点我进入监控对接方法

gitee代码仓库

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
4月前
|
运维 监控 Java
java乡镇卫生院、二甲医院云HIS运维平台源码
运营管理是综合管理系统的核心部分,由运营商和医疗机构管理人员使用,运营管理包括:机构管理、药品目录管理、用户管理、角色管理、字典管理、模板管理、参数设置、消息管理、售后服务、运营配置、外部系统11个子模块,实现机构、用户、角色管理、药品目录管理以及通用的字典管理;可以根据业务需要为各医疗机构定制病历模板和报表模板;可以对医疗机构收费外接设备进行参数设置,对业务进行配置;可以管理消息及售后信息等。
77 3
|
4月前
|
资源调度 测试技术 Linux
一款接口自动化神器—开源接口测试平台Lim(Less is More)
一款接口自动化神器—开源接口测试平台Lim(Less is More)
278 2
|
4月前
|
Go 数据处理 Docker
elk stack部署自动化日志收集分析平台
elk stack部署自动化日志收集分析平台
148 0
|
1月前
|
测试技术 Android开发 iOS开发
Appium 是一个开源的自动化测试框架,它支持多种平台和多种编程语言
Appium是一款开源自动化测试框架,支持iOS和Android多平台及多种编程语言。通过WebDriver协议,开发者可编写自动化测试脚本。在iPhone上实现屏幕点击等操作需安装Appium及其依赖,启动服务器,并设置所需的测试环境参数。利用Python等语言编写测试脚本,模拟用户交互行为,最后运行测试脚本来验证应用功能。对于iPhone测试,需准备真实设备或Xcode模拟器。
59 1
|
1月前
|
运维 Kubernetes 监控
|
2月前
|
弹性计算 运维 自然语言处理
属于Basis运维的、在Linux平台上运行的大模型测评 OS Copilot智能助手测评
OS Copilot是阿里云为Linux打造的智能操作系统助手,基于大模型,助用户进行自然语言问答、命令执行和系统运维。它简化了Linux操作,适合新手和运维人员。测评者作为IT架构师,发现OS Copilot使非技术背景人员也能操作Linux,接入命令可在官方文档找到。测试显示,通过"co"命令可与OS Copilot交互,实现生产任务融合。该工具提高了工作效率,尤其是对于遗忘具体命令时,非常有帮助。文档清晰,适合生产环境使用,值得进一步探索。
64 0
|
3月前
|
开发框架 运维 前端开发
构建一体化运维平台的八大功能
【6月更文挑战第6天】构建一体化运维平台的关键8个基本功能。
|
3月前
|
设计模式 运维 监控
运维一体化平台的能力要素
【6月更文挑战第7天】一体化运维平台的重要性,旨在建立覆盖运维全生命周期的统一平台,提升效率,保障业务连续性,实现数字化运维管理。
|
3月前
|
消息中间件 Kubernetes Kafka
AutoMQ 自动化持续测试平台技术内幕
Marathon 是一个针对流系统 AutoMQ 的自动化持续测试平台,旨在在模拟生产环境和各种故障场景中验证 SLA 的可靠性。设计原则包括易拓展、可观测和低成本。平台采用分布式架构,Controller 负责资源管理和任务编排,动态调整 Worker 数量和配置,而 Worker 是无状态的,用于生成负载和上报数据。系统基于 K8S,利用服务发现、事件总线和 Spot 实例降低成本并提高弹性。测试场景以代码形式描述,支持不同流量模型和断言,提供丰富的可观测性和告警功能。未来,Marathon 有望泛化为适用于各种分布式系统的测试平台。
44 0
AutoMQ 自动化持续测试平台技术内幕
|
4月前
|
SQL 运维 前端开发
一款现代化、高颜值的一站式智能运维管理平台
orion-ops-pro —— 一款现代化、高颜值的一站式智能运维管理平台,集资产管理、资产授权、批量执行、计划任务、WebShell、WebSftp、角色管理、系统管理等功能于一体,致力于简化运维团队的治理工作。
63 1
一款现代化、高颜值的一站式智能运维管理平台

热门文章

最新文章