五大智能运维场景

简介: 【5月更文挑战第3天】智能运维场景分5类:异常检测、根因诊断、故障自愈、事件预警、效能优化。

传统运维模式和智能运维模式存在很大区别。首先是在智能化水平上,在传统运维的检测、分析、发现(告警)、处置4个步骤中,都未涉及智能技术;而智能运维每个步骤都加入了人工智能算法,将发现和解决问题的时间大大缩短。


其次体现在知识积累、提炼和泛化应用上。当传统运维解决完一个问题,运维流程就结束了,一个问题或一个系列问题用一份报告记录发生时间、起因、处理方案等一系列完整过程后,这些报告将长期保存在企业数据库中,后续基本不会有人再翻开过问了;而智能运维将每个场景发生的问题、原因、处置方案、效果评估等内容进行分类、知识实体抽取、关系建立,形成初步的知识,再应用到问题预测、根因分析、处置策略的智能推荐中,根据每一次算法的优化反复迭代修改知识内容,最终沉淀为企业在该领域独有的运维理论。


按照智能运维的工作模式,将当前各领域通用的智能运维场景分5类:异常检测、根因诊断、故障自愈、事件预警、效能优化。在运维过程中,通常这按时间排序,先有异常检测,再做根因诊断。


1、异常检测

异常检测又称异常发现、异常诊断等,主要指找出设备、系统、网络环境等关键性能指标的历史数据什么时候发生了异常,这类异常既可能是故障也可能不是。在数据分析中,异常是一个相对概念,是相对正常而言的。


运维上的异常,既有通常所说的“相对异常”,也有专家定义的“绝对异常”。主要是通过KPI指标数据的时序变化,找出那些不符合规律的数据。传统运维是专家根据单个指标的数值分布或多个指标的组合分布确定一个阈值,不在阈值范围内的则被认为是异常。这种策略对于稳定的、规律的运行环境非常有效,稍微复杂多变的场景则会失灵。这时就需要机器学习算法学习更长历史时间的数据规律,进行判断和预测。


从复杂程度上来看,企业通常先做单指标的异常诊断、异常波动(指标漂移),再做多指标的异常诊断。多指标异常诊断往往是针对某一事物的异常诊断,该事物由多个KPI指标组成,比如电信运营商的网元、磁盘、网络等,又被称为网元异常诊断、磁盘异常诊断、网络异常诊断等。又因指标数据多是随时间而变化的时序类数据,因此,在实际工作中,这类异常诊断,被描述成对N个事物、M维指标、T时刻的数据进行异常诊断,需要同时对比不同事物之间的差异、不同指标之间的关联性、不同时刻数据的周期性3个角度来判断每个事物是否存在异常。


2、根因诊断

根因诊断,在心理学上称为归因分析,医学上则被称为病因学研究。字面意思是指通过结构化分析,一步步找出问题的根本原因。在运维领域,是基于发现的异常问题,再进一步分析其发生的原因,进而预防下一次再发生类似的异常问题。


这类的智能运维场景主要有定界定段、调用链追踪分析、瓶颈分析。

  • 定界定段是指根据KPI指标的分布特征,判断事件发生问题的特定分布,进而作为发生异常问题的原因,如在物联网质差设备根因分析中,发现T时刻KPI指标发生异常,通过关联的网络性能指标分布发现,某几个指标在T时刻也发生异常,则这几个指标很可能是引起KPI指标异常的原因。
  • 调用链追踪分析是指对调用链信息过滤,或查看应用拓扑、实时聚合链路表和调用链瀑布图,找到与问题相关的关键指标,即作为已发异常的原因;瓶颈分析是通过相关分析、协方差分析、回归分析等方法找出影响某个性能的多个维度指标及取值范围。


当前这种场景的分析思路主要有两种。

  • 一种是通过算法对外部维度的指标进行分析,找出相关性高的指标,再通过运维人员确认这类指标与发生的问题在业务上存在的因果关系,则这些指标被当作原因,如瓶颈分析。
  • 另一种是通过算法在内部维度的指标中,采用不断下钻的方式,找到影响上层指标发生异常的指标作为原因,如调用链分析。例如在分析互联网APP活跃用户数下降时,第一步下钻到新增活跃用户数、已有活跃用户数这两个指标哪个发生下降,如果发现只有已有活跃用户数发生下降,接着第二步再继续下钻分析已有用户数、老用户留存率哪个指标发生下降,这样逐级下钻找到最底层发生下降的指标,从而找到根本原因。


3、故障自愈

故障自愈是一整套严谨的故障自动化处理服务,通过和作业调度平台、配置管理中心、告警单据系统等诸多周边系统自顶向下的全流程打通,实现发现告警、关联配置信息、智能告警收敛分析、自动执行恢复操作、自动流程结单等功能。其中智能自愈机器人辅助人工进行根因分析、收敛分析等;自适应配置、智能调度和智能重启是故障自愈过程中的一种智能化恢复手段。


通常,故障自愈的核心过程有如下3步。

1)自主发现异常/故障,在告警下发时可以主动分析和处理告警信息。

2)收敛分析:针对每时每刻收到的大量告警信息,需要对同类型告警进行收敛分析,不能对每个告警都做处置,可以分为以下几个方面。

  • 单一告警可直接自愈处置。
  • 多个关联告警收敛为同一事件,对关键告警执行自愈处置。
  • 发现异常告警,需人工确认后执行自愈处置。  
  • 特殊极端告警,拒绝自愈处置,并发送运维人员。

3)流程闭环。包含如下几个方面。

  • 自愈成功:触发告警处理单自动结单。
  • 自愈失败/超时:转运维人员人工处理。
  • 未接入自愈的告警:转运维人员人工处理。
  • 后自愈分析:对自愈成功和失败的告警,定期进行总结评估,并辅助运维人员进行跟踪和优化自愈方案。


需要指出的是,故障自愈实现的价值将会越来越大,将其实现离不开专家知识库和智能推荐系统。只有通过算法、知识图谱将历史中无数次的人工故障处置经验和故障自愈作为知识积累下来,才能通过智能推荐算法泛化到更多运维领域,让人工参与程度越来越低,进而实现从KPI指标自动异常检测、自动根因分析到自动推荐处理方法,再到系统自动评估处理效果,实现全流程自动化和智能化的无人运维模式。


4、事件预警

事件预警定义为:基于KPI指标、告警、日志、感知等一系列历史数据,预测未来将要发生某特定事件的行为,包括异常预测(如根据IPTV历史播放的数据,预测第二天哪些设备会发生卡顿)、容量预测(如IT采购部门要对来年服务器进行采购规划,需要预知明年各业务对服务器资源的需求情况,这时则需要通过对各业务的容量变化进行长期预测)等。


无论是容量预测还是异常预测,目的是未来下一步效能优化。根据容量的短、中、长期的预测,分别对不同时期的容量制定有针对性的扩缩容和优化方案,确保系统可以随着时间的推移得到完善和增强,实现可预期的管理风险和期望,即科学容量规划。容量规划过程中,需要协助运维人员考虑如下问题。

  • 历史容量是如何变化的,为什么呈现这样的变化?
  • 未来短期的容量如何变化?
  • 何时达到容量极限,为什么?
  • 未来中长期容量如何变化,如何规划容量?
  • 不同容量规划方案,后果分别怎样?


同理,异常预测又叫故障预测、质差预测、突变预测,是基于大量历史KPI指标数据,预测未来可能发生的异常、故障等问题,实现系统预见性维护。异常预测与异常检测唯一的不同是,异常检测是针对过去已发生的数据进行分析诊断,而异常预测是用过去的数据预测未来可能发生的问题。两者所使用的数据、算法基本一致,在所选用模型训练数据和模型参数上会有细微差别。


5、效能优化

效能优化是基于上述异常检验、根因分析、故障自愈、事件预警每个步骤都做充分且准确的情况下,进一步对资源、系统性能进行优化配置,目的是精准控制企业成本,达到IT成本态势感知、成本科学规划,进而提升成本管理效率。


效能优化包括但不限于智能扩缩容、智能调度、低碳节能、设备优化、CPU使用率优化、数据库优化。其中,智能扩缩容、智能调度、低碳节能属于建立在容量预测下的资源规划和优化配置;设备优化、CPU使用率优化、数据库优化等属于建立在系统和设备异常预测下的性能优化。

  • 智能扩缩容:分为智能扩容(扩充容量)、智能缩容(缩小容量)。相对而言,智能扩容更加重要一些。因为当已有容量超过业务需求量时,即使不做相应的缩容,对系统性能也没有影响,主要是造成成本上的浪费。而扩容如果规划不好,则会与系统性能紧密挂钩。在企业中,扩容和缩容通常是一起进行规划的,因此经常合称为智能扩缩容。
  • 智能调度:泛指任何运维资源的优化配置,甚至包括运维人员的调度。
  • 低碳节能:目前主要指数据中心(Internet Data Center,IDC)机房和电信运营商基站设备,另外也指其他物联网设备,通过人工智能算法达到节省电能的目的。
  • 设备优化:主要指根据设备资源(如物理机和虚拟机)的使用率、使用时间,通过人工智能算法进行优化配置。
  • CPU使用率优化:特指通过人工智能算法针对服务器利用率的性能进行优化。
  • 数据库优化:特指通过人工智能算法针对数据库的性能进行优化。
相关文章
|
10天前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进
本文探讨了如何通过自动化和智能化手段,提升IT运维效率与质量。首先介绍了自动化在简化操作、减少错误中的作用;然后阐述了智能化技术如AI在预测故障、优化资源中的应用;最后讨论了如何构建一个既自动化又智能的运维体系,以实现高效、稳定和安全的IT环境。
33 4
|
6天前
|
运维 自然语言处理 Cloud Native
云栖实录 | 智能运维年度重磅发布及大模型实践解读
阿里云大数据运维团队重磅发布云原生大规模集群场景的 GitOps 方案,该方案基于 OAM 云原生模型,促进研发与运维人员协作,同时兼顾变更的过程管理和终态管理,可实现变更的自动化、代码化、透明化。此外,阿里云大数据运维团队分享了大模型在大数据智能运维场景的应用实践,通过引入检索增强生成(RAG)方法和其他优化策略,大幅提高了在智能问答和智能诊断方面知识的关联性和检索精度,并基于多智能体框架建立高效的数据分析和决策支持系统。
|
7天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
【10月更文挑战第1天】智能化运维:机器学习在故障预测和自动化响应中的应用
26 3
|
8天前
|
机器学习/深度学习 运维 监控
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化时代,运维工作的重要性日益凸显。随着企业业务的不断扩展和技术的日新月异,传统的运维方式已难以满足现代企业的需求。因此,构建一个高效、智能的运维体系成为了企业发展的关键。本文将探讨如何从自动化逐步演进到智能化,以实现运维工作的高效化和智能化。
|
8天前
|
机器学习/深度学习 运维 监控
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化浪潮中,运维作为信息技术的重要支柱,其重要性日益凸显。本文将探讨如何通过自动化和智能化手段,提升运维效率,保障系统稳定性,促进业务持续发展。
|
8天前
|
机器学习/深度学习 人工智能 运维
利用AIOps实现智能运维:提升IT运维的新策略
在数字化迅速发展的今天,传统IT运维已难以应对日益复杂的系统。AIOps通过融合AI、机器学习和大数据技术,革新了IT运维方式。其核心优势包括预测性维护、自动化处理、智能分析和资源优化。AIOps平台能自动检测、诊断并解决IT问题,显著提升运维效率。尽管面临数据质量、模型准确性和技术复杂性等挑战,但AIOps正逐步成为智能运维的重要趋势。
|
18天前
|
机器学习/深度学习 运维 Cloud Native
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化时代,运维作为信息技术的重要支柱,其效率与创新能力直接关系到企业信息系统的稳定性和业务连续性。本文将探讨如何通过技术手段,实现运维从传统手工操作向自动化、智能化的转变,进而构建一个高效、可靠的运维体系。我们将从自动化工具的应用开始,逐步深入到智能运维的实践,最终展望云原生架构下的运维未来趋势。
|
22天前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化时代,运维作为保障企业IT系统稳定运行的关键环节,正经历着前所未有的变革。本文将探讨如何通过实施自动化和引入智能化技术,构建一个更加高效、可靠的运维体系,以应对日益复杂的业务需求和技术挑战。
45 1
|
3天前
|
机器学习/深度学习 运维 自然语言处理
构建高效运维体系:从自动化到智能化的演进之路
随着信息技术的飞速发展和企业数字化转型的加速,运维管理作为保障业务连续性和系统稳定性的关键环节,正面临着前所未有的挑战与机遇。本文深入探讨了如何通过引入自动化工具和技术,实现运维流程的标准化、自动化和智能化,进而提升整个组织的运维效率和响应速度。同时,文章也详细分析了在实施自动化运维过程中需要考虑的关键因素,如人员技能提升、流程优化和文化变革等,以期为企业提供一套全面、实用的运维管理升级方案。
|
21天前
|
机器学习/深度学习 运维 监控
高效运维:从自动化到智能化的演进之路
在当今信息技术飞速发展的时代,运维作为保障信息系统稳定、高效运行的重要环节,正经历着从传统手工操作向自动化、智能化转变的历史进程。本文将探讨自动化运维的实践价值与实施策略,阐述智能化运维的理念框架及其关键技术,并通过案例分析揭示这一演进路径如何助力企业提升运维效率、降低运营成本,并增强对复杂系统的掌控能力。通过深入剖析,本文旨在为读者呈现一幅从自动化迈向智能化的运维全景图,为寻求运维转型的企业提供参考与启示。