智能监控在袋鼠云中的应用

简介: 本文基于袋鼠云的云日志产品采集的数据,定义业务特征,形成具体的时间序列数据,对此时间序列数据进行预测,并对采集的业务数据自动进行异常检测,然后发送预警通知。

简介

传统监控是通过对监控项设置一个固定值(阈值),当监控项指标超过这个阈值时就通知人们关注这个指标项。传统监控一般适用于一定范围波动的业务指标,比如磁盘的使用率,CPU的使用率等,当指标超过一定值时就意味着系统可能出现故障,但是遇到波动范围比较大的场景时,比如某银行的交易09:00~18:00之间交易量大,在其他时间交易量可能为0,工作日交易一般,非工作日交易剧增,又比如某网站的点击量在白天很大,在深夜点击量可能为0,如果使用传统监控对上面的场景进行指标监控,往往不能很好的反映系统和业务的状态,产生很多误报的情况,增加人工成本,而且甚至会让人们对告警产生麻木,不信任感。所以我们加入了机器学习算法,对过去的监控指标进行训练,对当前值的异常判断不再仅仅取决于一个固定的阈值,而是同期数据,历史周期性数据进行了参考,通过这是动态阈值的方法对异常数据进行检测。

技术架构

_
模型训练器:云日志以固定频率采集的业务指标形成时间序列,输送到模型训练器中,模型训练器有一系列的数学模型组成(可动态添加),每个模型都得到预测值,观察值与预测值之前存在的误差,对比误差我们将得到一个与业务最匹配的数学模型。利用这个训练出的最佳模型,输入未来时间点,得到预测值,绘制未来业务图。
异常检测器:训练的数学模型预测的值与实际的观察值存在一定的误差,这个残差系列输送到异常检测器中,异常检测器也是由一系列的数学模型组成(可动态添加),模型检查的误差点与业务的异常点最匹配的模型将作为异常检测模型,将后续检测出的异常点发送给预警系统。

时间序列建模

采集的时间序列数据并非是散乱,毫无规律的一组数据,它往往伴随业务的变化而变化,有的具有很强的周期性规则,有的具有相对平滑的趋势,我们需要利用对应的数学模型来拟合,一下是我们常用的几种数学模型。

模型 描述
OlympicModel 季节模型,其中下一个点是先前n个时期的平滑平均值
MovingAverageModel 移动平均模型,下一个点在给定时间段的平均值
MultipleLinearRegressionModel 多元线性回归模型,使用一个或者多个变量对x和y的关系进行建模
PolynomialRegressionModel 多项式回归模型,高纬度数据建模
exponentialSmoothingModel 指数平滑模型,分一次,二次,三次指数平滑,对周期,趋势,季节性特征数据
weightedMovingAverageModel 权重移动平均模型,下一个点是给定时间段的加权平均值

对不同特征的时间序列,不同的数学模型所计算出的误差也截然不同,我们从以下列表的指标来衡量这些数学模型的匹配度。

指标 描述
Bias 误差的算术平均值
MAD 平均绝对偏差,也称为MAE
MAPE 平均绝对百分比误差
MSE 误差的均方
SAE 绝对错误的总和
ME 平均误差
MASE 平均绝对比例误差
MPE 平均百分比误差

在经过以上指标衡量预测模型的优劣后,我得到最契合业务的拟合曲线,得到最佳的训练模型。然后输入未来时间点得到那个时间点的预测值,然后绘制出预测曲线

异常检测

在预测出未来时间点的数据后,如何检测这个业务数据是否异常,我们也有对应的异常检测模型,如下表所示

模型 描述
cpModel 基于内核的波动点检测
DBScanModel 基于密度的聚类算法检测
kSigmaModel 经典的k-sigma模型,概率检测
extremeLowDensityModel 基于密度的异常检测,范围检测

将残差指标用以上模型计算之后,与过去的业务异常点进行对比,选择最接近的异常检测模型,作为后续的异常检测,当模型检测数数据异常时,即时发送预警给巡检员,防患于未来。

目录
相关文章
|
7月前
|
运维 监控 安全
云上智能监控:引领未来安防与运维的新纪元
通过智能视频分析技术自动识别违章行为(如闯红灯、超速等)并触发报警机制。同时结合交通流量监测和信号灯控制功能实现交通流量的优化和拥堵缓解。 智能零售监控:在零售行业中云上智能监控可以应用于店铺的客流统计和商品管理。
|
7月前
|
监控 安全 数据安全/隐私保护
云端智控:智能监控系统的新时代
云上智能监控系统作为一项重要的技术手段,在保障公共安全、提升生产效率等方面发挥着越来越重要的作用。尽管还面临着一些挑战,但随着技术的不断进步和完善,智能监控系统将更加智能化、人性化。未来,我们可以期待更多的技术创新和应用模式出现,让智能监控系统成为智慧城市中不可或缺的一部分。
|
运维 Prometheus 监控
《2023云原生实战案例集》——01 汽车/制造——传音 基于ARMS构建全球一体化可观测平台,高效支撑业务创新
《2023云原生实战案例集》——01 汽车/制造——传音 基于ARMS构建全球一体化可观测平台,高效支撑业务创新
|
存储 运维 供应链
《Elastic(中国)产品应用实战》——八、从代码到云:保护您的软件供应链从云可观测性开始
《Elastic(中国)产品应用实战》——八、从代码到云:保护您的软件供应链从云可观测性开始
|
存储 人工智能 Cloud Native
Tapdata 创始人唐建法:以秒级响应速度,为企业提供实时数据服务 | 阿里云云原生加速器特别报道
Tapdata 一直以生态伙伴的身份与阿里云保持着深度合作。未来,借助阿里云的生态战略与生态集成技术的全面开放,双方的紧密合作将进入新的阶段,共同为中国数千万家企业提供数字化转型服务。
Tapdata 创始人唐建法:以秒级响应速度,为企业提供实时数据服务 | 阿里云云原生加速器特别报道
|
人工智能 运维 Prometheus
鼎茂科技和阿里云完成产品集成认证,深度发力云上智能运维建设
近日,鼎茂科技旗下智能运维AIOps平台与阿里云旗下可观测套件ACOS产品,经过严格测试程序,完成了产品集成认证,这是继阿里云云原生加速器生态合作后,双方在云上智能运维领域的深度产品化合作。
267 0
鼎茂科技和阿里云完成产品集成认证,深度发力云上智能运维建设
|
数据采集 人工智能 运维
运维监控走向数智融合时代,博睿数据发布一体化智能可观测平台 ONE
5 月 20 日,博睿数据正式推出了一体化智能可观测平台 ONE。据介绍,这是业界第一个将所有运维监控需求“All in ONE”的统一平台。
467 0
运维监控走向数智融合时代,博睿数据发布一体化智能可观测平台 ONE
|
人工智能 运维 监控
|
弹性计算 运维 Prometheus
ARMS3.0 助力安利搭建一体化运维监控平台
本篇内容分享了ARMS3.0 助力安利搭建一体化运维监控平台。
546 0
ARMS3.0 助力安利搭建一体化运维监控平台
|
人工智能 监控 算法
2021阿里云峰会|友盟+:以一站式应用性能监控平台,为应用“维稳”赋能
5月28日--29日,"2021阿里云峰会暨阿里云开发者大会"在北京国家会议中心举行,此次峰会以“云上创新”为主题,阿里云与众多嘉宾、合作伙伴共同探讨了企业数字创新的新思路、新策略、新产品、新方案,展开“云上创新”的全景图。会上,友盟+高级技术专家李成亮带来了“如何保证移动应用稳定性”这一议题的分享。
2021阿里云峰会|友盟+:以一站式应用性能监控平台,为应用“维稳”赋能