智能监控成效的上限该如何突破?(上)

简介: 智能监控成效的上限该如何突破?(上)

微信图片_20220123183903.jpg


与通常的介绍文章不同,本文结合作者从事智能监控的实践经验,从聚合数据、明细数据两种数据形态入手分析它们对模型效果上限的影响,并介绍了基于这两种数据形态的智能监控常用做法的本质。


一、业务背景


过去几年中国移动互联网发生了翻天覆地的变化,但凡是有流量入口的地方,各大公司都在不断角逐,流量入口形式的不断丰富,对应着背后业务形态的日趋复杂。从技术角度来看,过去平台化的方式越来越难端到端的支撑快速发展的业务,进而演化出了中台的概念,快速支撑业务的同时,也带来了系统关系成网状的复杂形态。业务形态、技术支持、运维规模等都在处于快速变化期。在这个业务快速增长期,一个不能稳定运行的系统意味着什么?


通常稳定性都以一个百分比数字去描述,比如:全年系统运行稳定性为99.99%。我们又习惯叫99.99%为稳定性4个9。以4个9来算的话,一年365天大概有不到1个小时系统是不可用的,现今的大公司如BAT,每秒请求数量在几万是家常便饭。不到1小时的系统不可用对公司造成的影响是巨大的,轻则影响公司收益,重则失去用户。


微信图片_20220123183911.jpg



稳定性保障经历了运维(Operation)、开发运维(DevOps)、质量(SRE)、智能运维(AIOps)几个阶段(它们不完全互斥),最初Operation的阶段往往是开发和运维各自为战,在出现稳定问题时相互甩锅,后来DevOps应运而生,通过开发运维一体化来保障稳定性,避免开发、运维隔离带来的业务目标和运维目标的不一致问题,再往后DevOps进一步深化成质量保障体系,而不管是怎样的形式,随着复杂性的提升,单独靠人工去保障稳定性已经不再可行,人们开始思考借助人工智能的“新动力”克服人工缺陷,打造一个7*24小时不停歇的智能监控和定位的中台。


智能运维在工业界技术同行们不断努力和尝试下有一些落地的方案,在对常用做法进行归纳总结同时结合自己在工作中的使用经验,对常见做法进行一些优缺点分析,希望对即将或正在从事智能运维的同行们有一点启发。


作为在工业界的人,我必须讲究方法在实践中的有效性,在做应用的这一波人里,有一句流行话:“数据决定效果的上限,而算法只是尽量逼近这个上限”,所以本文先从数据形态(聚合数据、明细数据,下文将详细解释)来分析方法的上限,然后再结合数据形态讨论方法的优缺点。

由于我的知识有限,有错误遗漏之处请大家海涵。

 

二、从数据形态的角度看智能监控与定位


智能运维是人工智能和运维结合的产物,而数据是人工智能的“燃料”,特别是实践机器学习的时候,往往用什么样的数据入模决定了应用是否成功的关键,它包括:数据类型(如:系统日志、业务数据、函数调用堆栈、代码发布、配置变更记录、运维关键指标等)、数据形态(聚合数据、明细数据)。聚合数据是指通过聚合计算得到的汇总数据,比如运维关键指标。明细数据是指未通过聚合计算之前的数据。它们是两种不同的数据形态,用它们做智能运维的“燃料”有不同的优缺点。

 

2.1、聚合数据

聚合函数大家一定不陌生,sum、average等都是最常见聚合函数,当然你也可以自定义你的聚合函数,而聚合数据泛指通过聚合函数计算产出的数据。关键指标(KPI,Key Performance Index)是最常见的聚合数据,比如:在运维领域中技术KPI如CPU、内存使用率,业务KPI如支付成功率等。


微信图片_20220123183938.jpg


上图就是一个典型的KPI,横轴是时间、纵轴是某项指标,运维同学往往关注KPI指标的异常变化趋势,再通过人工分析去做问题排查。


聚合函数的设计往往按照运维人员可理解的方式设计,导致一旦报警准确,问题的语义信息也同时明确,给定位排查带来一些帮助,同时聚合后数据量骤减,避免秒级监控对存储、计算的过分依赖,但聚合函数导致数据精度损失,并且会导致数据关联的丢失,会导致监控报警只能依赖局部数据,影响报警准确率的上限。


聚合函数导致数据精度损失“这句话怎么理解呢?举例来说,99+1=100,但一旦做完加法,丢弃计算过程之后,再想要得到100=?+?在实践中是不可能的,假设当加号右边的1变成0,即99+0=99会出现系统故障时,在聚合计算之后,变化从100下降到99,1%的下降很可能导致故障的漏报,但如果计算过程未丢失,我们发现一个计算分支的指标从1下降到了0,100%的下降几乎肯定能被检测到。所以,聚合计算丢弃过程数据,而它蕴含了信息,少了这部分信息就像机器学习模型少了重要的特征一样,异动检测效果上限必定受到影响。


“(聚合函数)会导致数据关联的丢失”又怎么理解呢?下图是我司某业务的调用链路树,每个树节点是一个服务,和业界大部分设计良好的系统一样,每次调用


微信图片_20220123184004.jpg


 

都可以用一个全局唯一的ID串联,自然而然能得到数据之间的联系,当调用链路上某一个节点失败时,有可能不足以断定出现系统故障,但当许多关联系统出现问题时,出现问题的概率就大大上升了。而聚合计算导致全局ID丢失,天然存在的数据关联不复存在,只能假设在同一分钟的聚合计算结果之间存在关系,但实际上由于系统调用也存在时间,导致仅靠时间无法完全还原数据关系。这就像做图像识别的时候,把一幅图的空间联系打乱了一样,大大增加了识别的难度,同样影响异动检测的效果。


相关文章
|
数据可视化 安全 数据挖掘
阿里云datav介绍以及如何购买
阿里云Datav是阿里巴巴集团推出的数据可视化产品,旨在为用户提供全面、高效、便捷的数据分析和可视化解决方案。它具有丰富的功能和特点,能够满足用户对于数据处理、分析和展示的各种需求。
|
19天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
32198 117
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
9天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
4721 4
|
15天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6821 18
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
14天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4780 11
|
16天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5679 21
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
12天前
|
人工智能 JavaScript 安全
Claude Code 安装指南
Claude Code 是 Anthropic 推出的本地 AI 编程助手,支持 Mac/Linux/WSL/Windows 多平台一键安装(Shell/PowerShell/Homebrew/NPM),提供 CLI 交互、代码生成、审查、Git 提交等能力,并内置丰富斜杠命令与自动更新机制。
4273 0
|
16天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
6239 6