AIOps 落地难?仅需9步构建一套 AIOps 的最佳实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

我在与客户交流 AIOps 的时候,他们时常觉得 AIOps 不够成熟,以至于无法实施各种分析。

也有人认为:AIOps 的各项能力是线性发展的,他们必须事先评估和补足当前在“处理大量的事件和警报,以及统一化分散监控”方面的能力成熟度,才能考虑切入 AIOps。

我非常理解他们的关注点,毕竟数十年来,分析师和供应商灌输了僵化的 ITIL 思想和严格的流程,使大家都不愿为那些长期存在的问题,找到替代的解决方案。

诚然,AIOps 并未直接受到 ITIL 的约束,并能够被分步骤地予以实施和改进,但是业界至今仍缺乏实际的行动指导。

本文通过早、中、后期九个步骤来给出 AIOps 所必要的最佳实践。

AIOps的快速回顾

Gartner 判断的 IT 新兴市场趋势为:传统的 IT 流程与工具已不再适合处理那些由现代数字业务所带来的挑战。这不但与数据的传输速度、种类、以及体量有关,还与从线下的历史分析转为线上的实时分析有关。

a2f3a55bdd6c977c94e978d0645d1f6d6833b490

Gartner 对于这种趋势所给出的答案是:AIOps。它整合了 IT 服务管理(ITSM)、IT 运营管理(ITOM)和数据层面上的 IT 自动化

AIOps 使得数据能够驻留在支持实时应用分析和深度历史查询的大数据平台之中。这些分析可以由那些支持对数据流进行无人值守式处理的机器学习来实现。

因此 AIOps 的基本思想是:传统的 IT 工具仍然发挥效用,例如服务管理仍然处理各种请求和事件;而性能管理仍然监视各种指标、事件和日志。

但是它们的数据被关联、并通过机器学习的分析,从而实现更好、更快的决策和任务过程的自动化。

最终状态

AIOps 的最终状态是:要保证数据能够顺畅地从多个数据源流入一个大的数据平台中。

该平台能够对来自其他来源和类型的数据予以吸收、分析和后期处理;通过机器学习来管理和修改分析算法。

它能够自动触发工作流,其输出结果会作为二次数据源被再次反馈到系统之中,使得系统实现自适应,并且通过响应各种数据卷、数据类型和数据源的变化,进而自动调整和按需通知相应的管理员。

基于上述概念,我将首先提出一个必要且可行的“路线图”,然后详细阐述在 AIOps 实施过程中可采用的具体步骤,以构建出一套 AIOps 的最佳实践。

该 AIOps 路线图共分为 9 步,他们分别是:

 ●   识别当前用例
 ●   就系统记录达成一致
 ●   确定成功的标准、并着手跟踪它们
 ●   评估当前和未来状态的数据模型
 ●   分析现有工作流
 ●   开始自动化实施
 ●   开发新的分析工作流
 ●   使组织适应新的技能集

 ●  定制各种分析技术

早期阶段

识别当前用例

鉴于各种变数情况,您最好先从自己所熟悉的方面开始。对于大多数用户来说,他们当前的各种用例方案无法应对那些新技术的发展。因此,您可以列举出自己当前正在处理、或准备解决的用例列表。

如下给出的切入点可方便您发现当前的“目标”状态:

 ●   列出如何实现各种预期的结果
 ●   评估特定用例的优先级
 ●   突出当前能力、工具、技能或过程中与目标所存在的差距

同时,这也是制定一个成功 AIOps 战略的良好开端。通过强调这种“开启”方式,我们会发现许多新的用例。

各种新的预期结果也会涌现出来,而它们的优先级将随着您的业务和技术的变化而相应地调整。可见新的 AIOps 方法会给我们带来各种新的可能性与挑战。

所以说,重要的是要在一开始就能找到从当前您所处的位置前往目标的桥梁。只有找到了您面临的问题和需要改变的地方,才能选择正确的道路去实现,反之则注定失败。

评估数据的自由度

AIOps 的首要基本元素是:来自不同工具的数据流能够自由地汇聚到大数据存储区中。

65523fd4e39ff01db2ae4b264595923ecd67e9e2

因此,您必须评估自己IT系统中获取到的各类数据的易用性和频率。我们理想的最优模型为:实时地发送数据流。

然而,目前很少有 IT 监控或服务台(service desk)工具能够支持向外流出数据。当然,它们迭代出的最新版本应该能以 REST API 方式提供编程上的交互与支持。

但是,如果使用的是基于诸如 Oracle 或 SQL 之类的传统关系数据库,由于它们在最初设计时并非为了支持数据的连续流出,那么即使具有可编程接口,也会对生产系统的性能产生巨大的影响,因此,我们可以断言它们并不能支持数据流。

可见,在制定 AIOps 策略的早期,重要的步骤之一就是要明确自己系统对于数据流的支持能力,并为如下问题给出相应的答案:

 ●   我如何能从当前的 IT 工具中获取数据?
 ●   我能得到什么样的数据?
 ●   我能够通过编程的方式来实现吗?
 ●   我获取这些数据的频率是怎样的?

通过发现这些约束条件,您可以考虑去更改当前的数据整合策略(例如,将批处理上传模式转化为流式),甚至考虑将现有的IT工具替换为那些支持实时数据流的软件。

就系统记录达成一致

AIOps 的第二个基本要素是:组织的协同和沟通。我建议 IT 运营和 IT 服务管理人员协作审查各种数据的需求,同时就各自的角色和责任达成共识。在此,我们主要着眼于基于共享数据上的协同决策。

这里所说的数据并不是那些已经流入 AIOps 大数据存储区,以待分析的数据。而是 IT 人员可以从自己环境中获悉的、用于采取行动和做出决断、并最终能够跟踪效果的那些数据。因此,整个团队需要针对数据达成如下共识:

 ●   为了突破系统当前限制所需要的最小数据集
 ●   数据所在的位置
 ●   团队所能共享的联合视图与访问权限

根据传统的 ITIL 模型,在许多成熟的组织中,满足上述条件的系统是他们的服务台。各种服务请求、事件和变更性的数据都被存放于此。

但是当 DevOps 团队开始使用 Jira(译者注:一种项目与事务跟踪的工具),来记录缺陷和功能性的改进时,该模型会受到了一定的挑战。

因为在使用 APM(译者注:一种监控和管理应用软件性能和可用性的工具)时,IT 运营与安全团队是无法通过各种本地或远程事件,来捕获或识别多种威胁的。

因此准备实施 AIOps 就意味着:您需要在应用程序、服务或业务的价值链中确定所有有效的结果性指标,并制定出一个方案来汇集这些数据。

您可以在大数据平台上构建各种“仪表板”,来筛选出具有特定用途的大数据集,即:对不同数据源产生不同的视图。

当然,您可以从“在当前环境中选择数据子集,并将其反馈(如 Jira 工单和 APM 事件等)到已建成的记录系统中”开始。

制定成功标准并开始跟踪它们

任何成功的业务与 IT 管理都起源于了解各种关键性能指标(KPI)和度量标准。因此,具有可操作性的方面包括:

 ●   了解对哪些方面进行测量
 ●   实现一致且完备的措施
 ●   定期报告或提供性能衡量的可视化
 ●   能够对责任方问责

一般大多数 IT 工具都自带有几种衡量工具和模板,它们往往能够为您提供各种参数。而我们都知道:数量是无法真正反映背后因果关系的。

如果我们只是简单地将它们放到报表上的话,并不能给企业带来业务上的提升。

中期阶段

评估当前和未来状态下的数据模型

数据模型评估是一个关键方面,但很少有人真正理解或愿意这么做。本质上说,您必须为即将上马的 AIOps 方案厘清各个数据源的数据模型,以保证这些模型能够被 AIOps 的用例所识别,进而评估出不同模型间的直接交互和预期结果。

81da161e7e432536cc13777a0db52d16a8047346

我们之所以说它具有一定的挑战性,是因为大多数 IT 工具的数据模型对于用户都是不可见的。

很少有组织、甚至包括一些数据分析人员或专家,能真正知道大数据平台(使用的是 NoSQL)与传统数据库(使用的是 SQL)的不同之处。

AIOps 实际上是在一个大数据存储库中关联了来自不同 IT(和非 IT)源的数据,使得它们能够互联互通,从而实现分析和趋势判断。

AIOps 系统可以处理许多种共享的数据结构(如下所示),而不需要额外地进行二次开发或改进:

 ●   时间戳: 各种事件、日志和度量中带有时间点特征的数据,可以被聚集在一起用于关联事件,并按照时序进行因果分析。
 ●   属性: 某个事件、日志或度量所关联的信息键值对(key:value), 如“状态”、“源”、“提交者”等,可用于在不同数据集之间创建关系模型。
 ●   历史性:时间序列或事件活动的过往数据,可用来预测将来的表现或门限值,如饱和度(saturation)和退化度(degradation)。
 ●   效应:一天、一周、一个月等时序数据所呈现的趋势或规律性,可用于关联多个数据集、或预测可伸缩性的资源需求。
 ●   应用程序、服务和业务模型:如果您能够定期进行发现与配置管理上的实践,就可以用它们来通知 AIOps 平台各种资产的分组、关联、依存关系、以及做到数据的去重。

总之,通过构建良好的时序数据,AIOps 能够运用各种运营监控与管理工具来关联、分析和预测各种时序数据,进而实现:

 ●   将 IT 和非 IT 类数据相集合,例如:用户数量+性能表现、延迟时间+转换率;
 ●   并能增加数据的“粒度”,例如:从 5 分钟的频率上到 1 分钟;
 ●   对数据流进行应用级的分析,例如:做到“实时”或对特定历史时间段的查询。

人工捕获的事件往往是非结构化的;而大多数设备获取的 IT 事件 blob(译者注:binary large object,二进制大对象)也只能达到半结构化。

它们都存在着:格式不一致、不够完整、大量重复等特点。因此,AIOps 应当对这些 IT 事件属性提供范式转换,为进一步分析做好准备。

分析现有工作流

至此,我想您对 AIOps 方案的分析已经准备就绪了。此处的分析并非来自于 IT 工具,而是您定期或不定期进行的,旨在改进流程、降低成本和提高性能的离线式手动分析。

您可以通过手动分析 AIOps 方案,以不断迭代的方式解决自动化过程中出现的问题,进而减少花费在分析上的手动工作量,并提高分析的频率和范围。

可见,AIOps 的目的就是:减少您在手动上花费的时间和精力,通过提高速度与频率,以实现对数据集的自动化实时分析。

开始实施自动化

诚然,每个人都知道自动化的价值,但是不同团队对此有着不同的理解。随着 DevOps 所带来的持续集成与交付(CI/CD),IT 运营的自动化道路也发生了相应的影响。

 ●   IT 运营(IT Ops):着眼于自动化任务和协调各项步骤。其中包括:实现服务台的工作自动化、自动给服务器打补丁、通过监控工具来自动修正系统错误。难点在于横跨各种工具间的步骤配合与相互联动。
 ●   DevOps:着眼于自动化自己的开发任务和业务流程,以消除瀑布式开发所带来的分段式审查过程、隔离式测试、行为合规、以及运营与上线联动等所造成的瓶颈与滞后。

可见,DevOps 的应用团队旨在通过开创新的服务(如云端应用),加快集成与交付的速度与频率。

而IT运营团队,则需要“自动化所有”,他们需要协调的不只是 CI/CD,而是整个“链条”。

如果他们不知道服务何时从测试转移到了生产环境,不知道谁手中的源代码会对产生环境造成何种影响,不知道如何识别与度量业务开发人员积压的工作,那么就无法真正有效地去管理好自己的自动化环境。

因此,IT 运营需要跟上 DevOps 团队的速度和敏捷性,综合运用工具来发现信息、共享信息,并通过与 DevOps 的沟通来“刷出自己的存在感”。

后期阶段

开发新的分析工作流

通过中期阶段对于现有工作流的分析,您应当能够自动化并扩展了自己的 AIOps 方案,同时实现了如下方面:

  •  ●  评估现有工作流的价值

  •  ●  修改和改进现有工作流

  •  ●  基于现有差距开发新的工作流

一旦在 AIOps 平台中实现了对现有流程的自动化,我们就可以进一步评估:正在分析的信息是否真正有用?其趋势判断的结果是否可行?以及如需更改的影响会有多大?

我们可以利用现有工作流的分析结果形成“正反馈”,从而开发出新的分析工作流。

使组织适应新的技能集

在角色上,IT 运营人员将从一般“从业者”转换为“审计者”。他们应当跳出固守了十多年的对于设备完全掌控的观念,将目光投到业务数据的分析上。

虽然不需要具有数据科学方面深度的机器分析水平,但是他们确实需要了解系统是如何处理数据、以及是否能够实现业务的目标。这也是 AIOps 将给 IT 运营人员带来的最大变化。

纵然整个市场目前尚未完全成熟,但是各个企业仍值得去培养具有 AIOps 能力的人才。假以时日,他们必将为组织带来结构化的科学转变,并让组织从中受益。

定制各种分析技术

最后在运用 AIOps 进行 IT 运营方面,组织还需要开发出一些数据科学方面的实践。通过数据科学家、开发者与分析师的协作,他们会开发出能在大数据集上运行的算法,并在代码上使用 Python 或 R 语言来实现各种数据科学的模型。

当然,IT 运营人员不必了解过多有关数学和编程方面的知识,他们只需要能够管理一个具有半智能、半自治能力的系统架构。

他们应当能够根据 AIOps 供应商所提供的多个备选分析系统,选择最适合于自己环境的组合。

在日常运营中,AIOps 平台也将能够提供实时的、定制的回归分析,以辅助做出各种决策。


原文发布时间为:2018-09-13

本文作者:陈峻编译

本文来自云栖社区合作伙伴“高效运维”,了解相关信息可以关注“高效运维”。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 SQL 弹性计算
圆桌讨论:如何构建一站式全链路解决方案
本文整理自天翼云首席研发专家候圣文,OceanBase社区布道师周跃跃,CloudCanal联合创始人万凯明,StarRocks解决方案架构师王天宜,在如何构建简单高效的现代化数据栈的分享。
圆桌讨论:如何构建一站式全链路解决方案
|
3月前
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
3月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
3月前
|
人工智能 运维 监控
构建高效运维体系:理论与实践的深度融合####
本文旨在探讨高效IT运维体系的构建策略,通过理论框架与实际案例并重的方式,深入剖析了现代企业面临的运维挑战。文章开篇概述了当前运维领域的新趋势,包括自动化、智能化及DevOps文化的兴起,随后详细阐述了如何将这些先进理念融入日常运维管理中,形成一套既灵活又稳定的运维机制。特别地,文中强调了数据驱动决策的重要性,以及在快速迭代的技术环境中保持持续学习与适应的必要性。最终,通过对比分析几个典型企业的运维转型实例,提炼出可复制的成功模式,为读者提供具有实操性的指导建议。 ####
|
5月前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进之旅
在当今数字化时代,运维作为信息技术领域的核心组成部分,其重要性日益凸显。随着企业业务的不断扩展和技术的日新月异,传统手工运维方式已难以满足现代IT架构的需求。因此,构建一个高效、智能的运维体系成为业界共识。本文将探讨如何通过自动化和智能化手段,实现运维效率的质的飞跃,并分享一些成功案例与实践经验。
|
7月前
|
机器学习/深度学习 边缘计算 运维
智能化运维的演进之路:从脚本工具到AIOps
在数字化浪潮下,企业运维管理正经历一场深刻的变革。本文将探索智能化运维的发展脉络,从最初的脚本工具应用到当下的AIOps实践,揭示这一过程中的关键技术进步和理念更新。我们将通过具体案例,展示如何利用大数据、机器学习等技术提升运维效率,降低人力成本,并预测未来运维领域的发展趋势。
|
7月前
|
机器学习/深度学习 人工智能 运维
智能化运维:如何利用AI和机器学习优化IT基础设施管理
随着技术的快速发展,传统的运维方法已无法满足现代企业的需求。本文将深入探讨如何通过人工智能(AI)和机器学习(ML)来革新IT基础设施的管理方式,提升效率并降低成本。我们将从实际案例出发,分析AI与ML在智能监控、故障预测、自动化修复等方面的应用,并讨论实施这些技术时面临的挑战与解决策略。
95 1
|
6月前
|
人工智能
就AI 基础设施的演进与挑战问题之通过应用核心概念来优化研发过程的问题如何解决
就AI 基础设施的演进与挑战问题之通过应用核心概念来优化研发过程的问题如何解决
|
7月前
|
机器学习/深度学习 运维 自然语言处理
智能化运维的崛起:如何利用机器学习优化IT基础设施管理
本文深入探讨了智能化运维在现代IT基础设施管理中的关键作用,特别关注于机器学习技术如何革新传统的运维模式。文章首先定义了智能化运维的概念,并分析了其对提升运维效率、预测性维护和自动化处理故障的重要性。随后,详细讨论了应用机器学习进行日志分析、异常检测、资源优化以及安全威胁预测的具体案例。最后,本文强调了实施智能化运维时需要考虑的挑战,包括数据质量、模型解释性和技术整合问题,并提出了相应的解决策略。通过综合运用机器学习与大数据技术,智能化运维正在成为提高企业IT运维能力的重要手段。 【7月更文挑战第22天】
70 0
|
9月前
|
机器学习/深度学习 Cloud Native 持续交付
构建高效机器学习模型的策略与实践构建未来:云原生技术在企业数字化转型中的关键作用
【4月更文挑战第30天】 在机器学习领域,构建一个高效的模型不仅需要深厚的理论基础,还需结合先进的技术手段和策略。本文将探讨一系列提升模型性能的方法,包括数据预处理、特征选择、模型调参以及集成学习等。通过具体案例分析,揭示这些方法如何在实际问题中得以应用,并讨论它们对模型性能的影响。文中还将涉及最新的研究进展,为读者提供前瞻性的指导意义。 【4月更文挑战第30天】随着企业加速其数字化转型之旅,云原生技术已成为推动创新和灵活性的核心。本文深入探讨了云原生架构的原则,包括微服务、容器化、持续集成/持续部署(CI/CD)、以及声明式APIs。分析了这些技术如何共同促进可伸缩性、敏捷性和容错性,同时