先建“语义基座”,再谈运维智能!阿里云以 Operation Intelligence 定义 AIOps 新范式

简介: 通用大模型的到来与数据整合技术的突破,正在重塑 AIOps 的底层逻辑。

作者:鸢玮


大模型的出现,给许多行业带来了颠覆性的改变,运维这个向来被视为稳定、保守的领域也不例外。虽然“AIOps”这个概念早在 2016 年由 Gartner 提出,但早期的智能运维更多是利用大数据和机器学习对传统运维流程进行效率上的提升。十年后的今天,大模型的强大能力,正推动着 AIOps 从辅助工具,演进为数智化转型中不可或缺的核心基础设施,让运维真正迈入智能化的深水区。


阿里云云原生应用平台事业部总经理、资深技术专家周琦作为这一变革的深度参与者,对 AIOps 的本质有着深刻洞察。“AIOps 这个词已经被广泛使用,但我更倾向于用 Operation Intelligence 来定义它。周琦在采访中强调,它的核心是发现与沉淀运维操作中的智慧,让工程师从重复繁琐的劳动中解放出来,聚焦于更高价值的创造。


十年演进,重塑 AIOps 底层逻辑


在传统的运维时代,更多依赖人工被动处理故障,效率低下;而后进入到自动化运维时代,借助工具实现任务自动化,缩短了故障恢复时间;到了小模型运维时代,通过机器学习实现异常检测与根因分析,运维也初步具备智能化特征;如今进入到大模型时代,运维才真正开始走向真正的智能化。


回顾 AIOps 过去十年的发展,周琦认为有两个关键转折点重塑了其底层逻辑。第一个转折点是通用大模型的到来。在此之前,所谓的智能运维更多是通过垂类 AI 模型来解决告警治理、异常检测等单一、点状的问题。这种方式虽然有用,但难以规模化。大模型的通用特性,像是一个巨大的杠杆,将 AIOps 的能力从点状解决扩展到面状全域覆盖,凭借其强大的泛化能力可以应对千变万化的碎片化运维任务。


第二个转折点则在于数据整合技术的突破。过去,运维工作呈现高度碎片化特征,数据和引擎往往由不同供应商提供,形成了天然的数据孤岛。周琦表示,想要建设统一的 AIOps 体系,首先就要跨过这道鸿沟。如今,存储、计算与分析技术的进步,实现了异构数据的关联与串联,将分散在各个系统中的数据整合在一起,为全域智能运维奠定了坚实基础。


技术的演进也推动了企业对 AIOps 认知的转变。周琦观察到,早期,企业引入 AIOps 的核心诉求只是保障系统的稳定性,关注的焦点集中在故障修复、告警处理等基础功能方面。但现在,企业的需求维度大大拓宽了,安全性、可扩展性、延时、用户体验等这些过去容易被忽略的隐性成本,正受到前所未有的关注。这种认知的升级带来需求的延伸,AIOps 不再仅是运维工程师的工具,还需要满足企业管理者对系统成熟度、跨模块依赖关系等深层因素的考量,真正覆盖多角色、多维度的运营需求。真正的 AIOps,不是让人去适应工具,而是让工具主动理解人、服务人、成就人。


能力跃迁,让系统“能感知、会思考、可行动”


大模型时代的到来,让 AIOps 具备了前所未有的智能化能力。那么,大模型究竟为运维领域带来了哪些质变?周琦用一个生动的比喻来解释,给 AI 装上摄像头。传统运维在很大程度上依赖于工程师的个体经验,一位经验丰富的老师傅心中通常有一张无形的系统拓扑图,知道哪里容易出问题、该如何分析。但这种宝贵的经验附着于个体,难以沉淀、复制和规模化。大模型的出现,结合阿里云构建的实时数据采集与分析引擎,相当于为 AI 赋予了感知能力,使其能够真正能看懂系统、理解故障、思考方案。


这带来了运维能力的根本性跃迁。机器不再是机械地匹配预设规则、触发阈值告警,而是开始能够读懂告警信息背后的语义,理解系统当前真实的运行状态,甚至能归纳历史故障的复杂模式,并主动生成可供执行的修复建议。为此,阿里云提出 Operation Intelligence 理念,把人的经验变成系统的智慧,把个体的直觉转化为组织的资产,让系统具备类人决策能力,周琦将阿里云践行的 Operation Intelligence 理念概括为三个层面的能力进化。


  • 在感知层面,目标是突破传统监控中常见的数据孤岛,构建从终端设备到业务流程的全链路感知网络。
  • 在认知层面,关键在于融合大模型的通用理解能力与专用领域算法,将海量、原始的观测数据转化为可解释、可推理的系统关系图谱。
  • 最终,在行动层面,通过模型与算法的协同驱动,实现自动化的处置闭环,推动运维从人工救火系统自愈转变,通过高效的人机协同大幅提升整体运营效能。


当然,大模型并非万能,针对大模型幻觉问题,阿里云设计了一套双重保障机制。周琦介绍说,在技术层面,通过强化多源数据的交叉验证,将数据采集、清洗、预处理等基础但繁重的工作交由传统工具完成,让大模型聚焦在最核心的推理环节,从源头减少幻觉产生的可能性。在应用层面,系统支持企业外挂自身的私有知识库,利用行业或企业特有的领域知识来补充和修正通用大模型可能存在的认知盲区,确保建议的准确性与合规性。


构建智能运维新范式,解放人力聚焦高价值


理想与现实之间总是存在挑战。周琦坦言,阿里云在自身的大规模实践中深刻体会到两大核心难题。其一是数据层面的挑战,包括异构系统形成的数据孤岛、数据洪流带来的存储与算力压力。其二是认知层面的挑战,不同团队、不同系统之间存在的语义鸿沟,以及对系统拓扑、故障根因逻辑链的理解不一致问题。


为了系统性地解决这些问题,阿里云将内部的实践经验产品化,形成了一套帮助企业在大模型时代构建智能运维新范式,并且在可观测产品中落地。


这套架构分为三层,底层是以日志服务 SLS 为核心引擎构建的统一可观测数据平台,实现日志、指标、链路、事件等多类型数据的统一接入与存储。该引擎具备 EB 级存储规模和秒级千亿行查询能力,能轻松应对每天数百 PB 数据,在保障数据完整性的同时,综合成本较自建方案降低 50% 以上。更重要的是,它支持全栈、实时、无侵入的数据接入,覆盖从移动端到基础设施的 200 多种组件,让企业无需重构现有系统即可完成数据整合。

1773805783625_178804be2a0049a2a4808477f9a4ace1.png

中层通过 UModel 统一模型构建 IT 系统的 数字孪生,这是阿里云可观测性产品的核心建模框架。UModel 基于本体论,提供了一套观测实体及实体关系的定义,覆盖从用户体验、应用服务、容器到底层基础设施的每一层表征。UModel 就像给整个 IT 系统建立一套通用语言词典,让应用、容器、网络等不同组件能用同一套语义对话,彻底告别你说你的指标,我说我的日志的沟通困境。周琦表示,这套标准化建模彻底消除了语义歧义,让不同部门、不同系统之间的协作更高效,也让运维人员的经验得以沉淀为可复用的组织资产,而非随人员流动流失。

1773805799023_f7808d4cc3754396b64f6934285d771f.png

上层则是以 AI Agent 为智能核心,实现工具适应人的新范式。Agent 采用自然语言交互方式,支持全场景上下文感知,用户可在任意界面随时召唤,直接通过自然语言提问,无需掌握复杂的查询指令。AIOps Agent 基于阿里云可观测平台的多源数据采集、存储、分析能力,采用统一数据平台 + UModel + 传统算法 + 生成式 AI”的混合处理架构,能够自主规划、调用工具、执行分析并反思优化,可以提供从自然语言交互到自动化巡检的全流程运维辅助能力,解决各类开放和未知的运维难题,将运维人员从重复的查询、分析工作中解放出来。

1773805833192_0183dbe8eac04061bb691229ac59865c.png

周琦形象地说,希望运维未来可以高度自动化,让 AIOps 把那些又脏又累的活儿做了。这意味着,企业客户无需再投入大量宝贵的人力资源去完成数据采集、清洗、对齐等基础且繁琐的工程工作,阿里云的平台已经将这些隐形工程承担下来。


如今,阿里云 AIOps Agent 已在 6000 多家企业落地,帮助大型企业客户实现故障 MTTR 从小时级降至小于 15 分钟。


对于企业而言,部署 AIOps 的终极价值远不止于减轻运维团队的负担,而是它能释放出宝贵的研发与创新资源,让技术人才能够专注于业务价值创造。同时,它也能帮助企业系统性地管理那些以往容易被忽视的隐性成本与合规风险,从长远角度优化 IT 投资的整体回报。


开源引领生态共建,推动“技术平权”愿景


阿里云深知,语义基座的价值在于普及,而开源与生态建设是实现技术平权的关键,更能让全行业运维人员共同成长。为此,阿里云在开源布局、标准建设和生态协同上持续发力,推动 AIOps 行业整体进步。


在开源布局方面,阿里云计划将 UModel 统一语义语言开源至社区,并向 OpenTelemetry 社区贡献了探针、采集器等核心工具。这些工具已被滴滴等公司开发人员广泛采用,大幅降低了行业重复开发成本。其中,无侵入探针的代码已开源在 GitHub 上,经过众多企业实战验证,在安全性和稳定性上备受认可,让中小企业无需自行研发即可获得高质量的数据采集能力。


在标准建设方面,阿里云正在构建 AIOps 成熟度 Benchmark 榜单,构建了从数据分析到复杂异常检测的分级标准,涵盖基础任务处理、异常发现、根因分析、隐形问题挖掘、自主修复等不同阶段,让企业能够清晰评估自身能力水平,找到明确的进阶路径。周琦表示,希望可以和业界一起共创,攻克智能运维领域的难题,推动 AIOps 标准落地,促进整个可观测性领域的快速发展。


在生态协同方面,阿里云通过大赛联动高校、企业,将工业界高频问题转化为赛题,促进产学研深度融合。通过大赛的方式,阿里云将标准 Benchmark 和真实场景赛题提供给参赛者,让高校学生、企业开发者都能在实战中提升能力,同时为行业贡献创新方案。


周琦表示,阿里云通过开放共建的模式,打破技术壁垒,让不同规模、不同行业的企业都可以落地 AIOps,实现技术平权,让中小企业也能调用顶级隐形工程师团队,让每个运维人员都能借助智能工具发挥更大价值,向智能运营专家演进。


未来趋势:自主 Agent 协同,运维能力重构


展望未来,周琦从不同时间维度来做出判断。短期来看,低风险任务将实现全自动化闭环,如 IP 封禁、简单扩容等操作可由 AI 自主完成,而重要操作仍保留人机协同决策模式,确保系统安全。同时,多角色 Agent 协同雏形将逐步显现,运维、安全、成本控制等不同领域的 Agent 将共享统一数据视图,提升跨域运营效率。


中长期来看,AIOps 将与 AI Coding、测试等环节深度打通,最终形成开发、测试到运维的全生命周期智能闭环。周琦解释道,AI Coding 目前在开发态做的非常有效,但从一个演示应用到企业级系统,部署后能稳定运行,还需要很长时间。我们希望能够将 AI Coding AIOps 串联,实现全局优化。让应用系统不光能跑起来,还能跑得更好、更稳,把运行态的状况实时反馈给 AI Coding


技术的演进必然带来运维人员角色与能力的重构。周琦表示,过去,运维人员是救火队员,整天忙于处理各类故障;未来,他们将转变为系统教练,而他们的核心能力不再是重复的操作经验,而是架构设计、业务理解、多维度决策等高阶能力。未来的运维人员需要平衡安全、成本、合规、可扩展性等多重诉求,专注于系统长期价值的优化。


结语


在阿里云可观测团队的定义中,智能运维是一场深刻的范式转移。它以大模型为驱动,基于统一的数据平台与领域知识模型,实现了从人适应工具将人类创造力注入系统智能之中的本质转变,最终构建起数据、认知与行动闭环融合的智能体系。


纵观这场由 Operation Intelligence 引领的变革,其核心在于将运维智慧从依赖个人的隐性经验,沉淀为可复制、可迭代的组织数字资产,推动工程师从重复劳作中解放,实现价值的创造性升维。


阿里云始终致力于通过自身实践与生态共建,让任何规模的企业都能获得顶级隐形工程师团队的支持,在数智化浪潮中聚焦核心创造,实现个人与企业的共同成长。


正如周琦所言未来的运维竞争,将不再是工具的竞争,而是人的创造力与战略眼光的竞争当统一语言打通系统与智能的鸿沟,技术真正服务于人的价值释放,这场变革便不止于运维效率的提升,更将成为企业创新加速、行业持续进步的核心动力。

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
12天前
|
人工智能 安全 Serverless
让 AI Agent 安全“跑”在云端:基于函数计算打造 Agent 代码沙箱
Agent 代码沙箱是保障 AI 智能体安全执行的核心基础设施。依托函数计算构建强隔离、有状态、低成本的 AI 运行时。
|
23天前
|
人工智能 Prometheus 运维
阿里云1分钟或本地部署OpenClaw+AIOps高效运维实战:Prometheus+夜莺MCP,轻量化监控分析指南
在运维场景中,传统监控架构往往存在链路复杂、定制化成本高、AI能力融合不足等问题。OpenClaw(俗称“龙虾”)作为功能强劲的AI智能体工具,虽具备强大的自动化执行能力,但直接部署面临权限过高、不符合生产环境安全要求的痛点。而夜莺MCP(管理控制平面)与Prometheus的组合,虽能实现监控数据的采集与可视化,却存在上下文交互Token消耗大、运维人员精力分散等问题。
1073 127
|
2月前
|
存储 人工智能 运维
阿里云全新发布的 UModel 是什么
当可观测数据被建模为可理解、可行动的上下文图谱,AIOps 才真正拥有了落地的土壤。
309 35
|
13天前
|
SQL 人工智能 Java
告别传统 Text-to-SQL:基于 Spring AI Alibaba 的数据分析智能体 DataAgent 深度解析
超越 NL2SQL,DataAgent 具备自主规划与深度分析能力,赋能企业统计分析、根因定位等复杂场景挑战。
479 16
|
6天前
|
人工智能 弹性计算 机器人
基于 OpenClaw 4 步构建 AI 员工
本方案基于OpenClaw),通过4步命令行部署,快速打造7×24小时在线的钉钉AI员工。支持群聊@和私聊交互,可自动写稿排版、秒建网站、同步发布动态等,助力高效办公。
|
4天前
|
人工智能 机器人 Serverless
打造云端数字员工:OpenClaw 的 SAE 弹性托管实践
OpenClaw GitHub星标破14万,标志着AI从对话框迈向自主智能体,以轻量CLI启动本地网关,提供安全、持久、可扩展的Agent运行时。依托阿里云SAE全托管Serverless容器环境,开箱即用、秒级弹性扩缩与跨可用区高可用,让AI真正成为可交付结果的“数字员工”。
|
5天前
|
弹性计算 人工智能 数据库
2026年阿里云服务器试用与购买活动参考:免费试用、新购优惠、特价云服务器续费政策解析
2026年阿里云为新老用户推出多项优惠政策,涵盖免费试用、新购优惠及特价云服务器续费。用户可零成本体验高品质云服务,新购时享受轻量应用服务器及长效特惠云服务器的空前折扣。特价云服务器续费政策明确透明,99元和199元档位新购续费同价,提供长期成本可预测性。此外,用户可领取阿里云优惠券,在部分云服务器活动价格基础上再获减免。阿里云构建了对新手友好、对老用户忠诚的优惠体系,助力个人和企业无忧上云。
|
6天前
|
人工智能 弹性计算 监控
OpenClaw 可观测性实战:用阿里云 SLS 打造 AI 智能体的
本文详解如何为 OpenClaw 智能体集成阿里云日志服务(SLS),实现日志采集、监控告警、链路追踪等可观测能力。包含一行命令部署、SQL 查询示例、仪表盘配置、告警规则等实战内容,让 AI 助手运行更透明、更安全、更经济。

热门文章

最新文章