(1)读取配置管理数据库(CMDB)信息。CMDB 是一个数据库,其中包含有关组 织 IT 服务中使用的硬件和软件组件,以及这些组件之间关系的所有相关信息。信息系统 的组件称为配置项(CI)。CI 可以是任何可以想象的 IT 组件,包括软件、硬件、文档和 人员,以及它们之间的任意组合或依赖关系。应用运行期依赖物理 IT 基础设施设备、虚 拟 IT 基础设施设备与应用之间的部署关系,网络拓扑关联关系可以从 CMDB 中定义的 CI 关联读取出来。一旦设备出现故障,这些关系可以用来辅助找出影响范围。
(2)监控分析网络流量。NPM 工具可以通过旁路镜像网络流量来监控网络上应用 中的服务接口之间、应用与用户之间的交互关系,获取网络层的关联关系。利用深度网 络包检测(Deep Packet Inspection,DPI)技术,甚至可以将网络报文中的业务交互 信息解析出来,补充业务层的调用关系。
(3)追踪应用代码链路。APM 工具提供了对应用程序性能深入分析的能力,当用 户向应用程序发出请求时,APM 工具可以通过探针看到分布式部署的应用系统中的接口 调用关系、代码链路执行过程和方法调用关系,并且可以显示有关此请求发生的系统数 据、参数和与数据库交互的 SQL 语句。应用白盒监控能力提供的关联关系,可以在排查 代码缺陷导致的故障时,快速定位根源问题。
(4)利用人工智能算法计算关联关系。以上三种方法利用传统运维监控工具提供的 数据关联和检索能力构建了覆盖物理部署、网络交互、接口交互与代码交互的关系图结 构(见图 4-6),基于此视图可以实现在异常情况下的信息关联。但是,一旦出现未能 直接监控的问题导致的应用故障,就需要用算法来辅助分析海量历史监控数据,发现数 据中隐含的关系,并根据发现的问题及已知事件推理进行决策。常用的技术是查找时间 序列指标数据波动之间的相似性、相关性等关联关系(主要方法有 Pear son、Granger Kendall、Spearman 等)。基于关联关系构建的因果推理分析模型,可以基于 概率图模型(如 Bayesian Networks、Markov Random Fields 等)建模来实现因果关 系发现和推理。以上内容摘自《应用智能运维实践(试读版)》电子书,点击https://developer.aliyun.com/ebook/download/367 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。