复杂网络架构下的网络故障智能处理——DC Brain之故障篇

简介: 本文PPT来自阿里巴巴产品经理何源(花名:荆杭)10月16日在2016年杭州云栖大会上发表的《复杂网络架构下的网络故障智能处理——DC Brain之故障篇》。

本文PPT来自阿里巴巴产品经理何源(花名:荆杭)10月16日在2016年杭州云栖大会上发表的《复杂网络架构下的网络故障智能处理——DC Brain之故障篇》。

网络是沟通世界的纽带,然而这个纽带却往往没有人们想象中的那么稳定。面对突如其来网络故障,网络工程师们经常会显得束手无策。与其他故障不同,网络故障的特殊性体现在1.体量大,经常涉及几万台网络设备和几百万端口2. 型号架构多,日志格式不统一,警告规则不统一 3.结构复杂,重复告警多 4. 自身依赖,监控系统本身运行在网络上。因此如何处理巨大的数据、不被海量的警告淹没、理清复杂的依赖关系和逻辑关系,是工程师们普遍关心的问题。

所以这里我们采用多元化、交叉覆盖的检测手段,根据可扩展、可自定义的规则并结合基于pagerank算法的告警收敛,利用告警监控系统冗余部署来检测网络系统异常。大体的思路是这样的:首先系统采集Syslog日志事件,并利用包含大量事件库的日志分类引擎来处理Syslog日志,最终再通过正则匹配使原本杂乱无章的系统日志变得简单明了。类似地,系统也会采集SNMP和Ping测事件,并且用包含对应规则库的规则引擎来分析处理这些事件。再经过引擎处理后,系统将根据告警等级和物理拓扑及协议拓扑将告警分发出去。

总结:大型的系统数据量每分钟可达千万级,因而基于spark streaming流式处理,spark graphX图算法这些单一的监控手段都会有失效的可能,所以要有多重手段。大数据不可怕,基础设施怕的是没有数据。所以既懂基础设施,又懂数据的人才很稀缺,将来会在市场上更具竞争力。

6d019db130e8660af2de1f9956cca6f0f331114e

d6bab1f3fd056bf64b352d7988a3ace8bfe5368f

b397a7f2b24ac63303703842bb58cf6b4008f00b

04f311cab7ac7879d8387bf7b5e64c4b1b0fa980

8b9a9265094aeeccec60897e813aacf9d0da8963

a8c93d95c43ee13ed36be550effeca739a402ea5

2554f6ad7e037837609ac35806a26f0f3f12665d

b542aa3570d0e8babe2f61ad8232ef14fa80c702

2b009e9d79def3c61ec7238e9604459f6a2adc8c

5da1fb9dab64657ad2230ba9ae5435a61d7cdda3

56ea148665b03e75e41225e68d91a651bcf239e8


相关文章
|
3月前
|
人工智能 运维 安全
配置驱动的动态 Agent 架构网络:实现高效编排、动态更新与智能治理
本文所阐述的配置驱动智能 Agent 架构,其核心价值在于为 Agent 开发领域提供了一套通用的、可落地的标准化范式。
719 51
|
3月前
|
机器学习/深度学习 人工智能 运维
云架构不是养祖宗,智能运维教你省心又省钱
云架构不是养祖宗,智能运维教你省心又省钱
126 2
|
3月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
378 0
|
7月前
|
边缘计算 人工智能 5G
5G引领家庭网络升级:速度、稳定性与智能化的新时代
5G引领家庭网络升级:速度、稳定性与智能化的新时代
561 69
|
5月前
|
JSON 监控 网络协议
干货分享“对接的 API 总是不稳定,网络分层模型” 看电商 API 故障的本质
本文从 OSI 七层网络模型出发,深入剖析电商 API 不稳定的根本原因,涵盖物理层到应用层的典型故障与解决方案,结合阿里、京东等大厂架构,详解如何构建高稳定性的电商 API 通信体系。
|
3月前
|
人工智能 安全 数据可视化
配置驱动的动态Agent架构网络:实现高效编排、动态更新与智能治理
本文系统性地提出并阐述了一种配置驱动的独立运行时Agent架构,旨在解决当前低代码/平台化Agent方案在企业级落地时面临困难,为Agent开发领域提供了一套通用的、可落地的标准化范式。
395 18
配置驱动的动态Agent架构网络:实现高效编排、动态更新与智能治理
|
2月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
275 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
8月前
|
边缘计算 安全 算法
阿里云CDN:构建全球化智能加速网络的数字高速公路
阿里云CDN构建全球化智能加速网络,拥有2800多个边缘节点覆盖67个国家,实现毫秒级网络延迟。其三级节点拓扑结构与智能路由系统,结合流量预测模型,确保高命中率。全栈式加速技术包括QUIC协议优化和Brotli压缩算法,保障安全与性能。五层防御机制有效抵御攻击,行业解决方案涵盖视频、物联网及游戏等领域,支持新兴AR/VR与元宇宙需求,持续推动数字内容分发技术边界。
564 13
|
5月前
|
存储 人工智能 调度
上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能
终端是实现数字智能和生命智能自由交互的重要接口,持续帮助人类拓展生产能力的边界。当下,终端智能面临着“能效-空间-智能”的不可能三角:以DeepSeek-R1为例,其参数规模高达6710亿,超出了大部分笔记本电脑的内存容量;即使勉强在一台笔记本电脑上成功运行满血版模型,理论上坚持不到9分钟就会耗尽电池;如果通过蒸馏,将满血版模型压缩到更小尺寸,此时的精度损失又可能满足不了智能水平的要求。
133 0
上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能
|
5月前
|
数据采集 机器学习/深度学习 自然语言处理
智能风险管理的技术架构:2025从数据采集到自主决策的全链路解析
本文系统梳理了项目风险管理的技术演进历程,从文档驱动到智能化阶段,深入解析各时期关键技术与工具架构,并结合实践案例提出前瞻性实施策略,助力项目管理专业人士构建智能风险管理体系。
358 2

热门文章

最新文章