带你读《CloudOps云上自动化运维 白皮书2.0》之11:3 如何衡量企业运维体系的自动化成熟度

简介: 带你读《CloudOps云上自动化运维 白皮书2.0》之11:3 如何衡量企业运维体系的自动化成熟度

3 .如何衡量企业运维体系的自动化成熟度

 

任何事物的成功都离不开客观的数字化,以及相关的衡量指标。依据指标可以清晰地看到自己所处的自动化阶段,自动化的应用程度,以及未来继续发展的方式和目标。

 

1) 自动化率

 

统计出日常工作中所需要的所有和开发及运维相关的操作,然后看看其中多少的操作已经是自动化完成的,多少操作是半自动化所完成的,多少操作是手工所需要完成的,分别占比多少,最终可以形成一个全局的饼图。

 

image.png

运维操作自动化占比示例

 

2) 操作时长和频次

 

毋庸置疑,自动化的操作速度远大于手工操作。如能记录完成操作所需要的时间,再进行自动化前和自动化后的对比,便可轻易地看出自动化的价值所在。尤其是频繁,复杂的操作,业务价值的体现则会更加明显。现代IT中最为频繁的操作为:

 

环境部署(Infrastructure)

环境配置(Configuration Management)

应用部署和配置(Application Deployment)

日志、报警或故障处理

 

3) 平均修复时间MTTR

 

从报警发生到故障被解决,系统被恢复的时间,称之为平均修复时间(Mean Time To Repair),它的公式如下:

 

平均修复时间=总故障时间÷总故障次数

 

举例来说,假设一年的总共故障时间是100小时,总的故障次数是12次,则平均修复时间为8.3小时。进一步,则可以根据故障的分类,模块,根因等进行分类,分别进行统计。

 

特别说明:在严格的情况下,请注意平均修复时间和平均恢复时间的稍许区别,前者不包括从故障实际发生到报警的时间,只是包括故障已经被发现,并且开始进行故障修复的时间,而平均恢复时间包括两者:从故障实际发生到故障报警,和故障报警到故障修复的时间。通常来说,故障报警所需要的时间相当于修复所需的时间而言较短,且占比较少,因此在宽松的语境下,两者会被混用。

 

4) 高质量的自动化所应具备的特性

 

自动化能力的构建应该按照正式的产品和项目进行,同样需要需求管理,调研,设计,研发,测试和部署等必要的环节,并保持持续迭代。而部署后的环境同样需要具备健康管理,从而进行监控,报警,故障和修复等。必要时,进行整体性的优化,改造和升级。

 

除此之外,现代化的自动化还应该考虑以下需求:

 

完备的角色管理和授权体系:毋庸置疑的是,自动化能力将会涉及到所有系统的所有环节,包括核心业务系统,机密数据等操作。越是重要的系统应该越依赖自动化能力而非手工方式,因为人工的处理存在种种的弊病,如因为粗心导致的失误操作等。因此,完备的角色管理和授权体系可以保证重要业务持续运行,以及保证机密数据的安全性。

 

具备审计能力:所有的自动化都应该具备可以被审计的能力,尤其是当所操作的对象是核心业务或机密数据时,更依赖审计能力去保证其安全。其次审计能力也有利于自动化系统本身故障的排查。Cloud上的云产品大多已经接入了Cloud上的审计服务,应该开启这类服务,并时常检查数据的完整性,保证关键的操作都被记录了下来。

 

标准化和平台化:统一的自动化能力是其他特性的重要依赖,标准化和平台化的目的都是为了统一。统一性的管理也有助于平台自身的建设,尤其应该避免建设多个自动化平台。统一的自动化平台也有利于公司统一进行监督和扩展,如要修改审核规则时,更容易落实规则。

 

5) 自动化能力成熟度模型

 

 image.png

 

如果您希望对所在企业的自动化能力成熟度进行评估,建议至第十章进行“CloudOps成熟度自评”。

相关文章
|
2月前
|
存储 人工智能 运维
日志服务&云监控全新发布,共筑企业智能运维新范式
阿里云推出Operation Intelligence新范式,通过日志服务SLS与云监控2.0,实现从感知、认知到行动闭环,推动运维迈向自决策时代。
281 1
日志服务&云监控全新发布,共筑企业智能运维新范式
|
2月前
|
API 调度 虚拟化
VMware Cloud Foundation Automation 9.0.1.0 发布 - 私有云自动化平台
VMware Cloud Foundation Automation 9.0.1.0 发布 - 私有云自动化平台
185 3
VMware Cloud Foundation Automation 9.0.1.0 发布 - 私有云自动化平台
|
2月前
|
运维 Prometheus 监控
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
140 8
|
2月前
|
人工智能 运维 安全
2025年工作流自动化的15个趋势,如何影响企业的业务?
越来越多企业正通过自动化与智能化升级工作模式,聚焦科技、制造、医疗三大领域。从RPA、AI到低代码平台,技术赋能提升效率、保障安全;智能制造优化运维;智慧医疗减轻负担。超自动化推动流程互联,让员工更专注创新与核心事务,实现高效协同与可持续发展。
269 1
|
2月前
|
人工智能 运维 监控
运维安全还能靠“人盯人”?别闹了,聊聊自动化处理的真功夫
运维安全还能靠“人盯人”?别闹了,聊聊自动化处理的真功夫
153 17
|
3月前
|
存储 人工智能 运维
从“看得见”到“能决策”:Operation Intelligence 重构企业智能运维新范式
从 Observability 到 Operation Intelligence,日志服务 SLS 与云监控 2.0 协力之下,为企业打造高效、稳定、智能运营的数字化中枢,让复杂系统变得可视、可管、可优。
|
3月前
|
运维 Linux 网络安全
自动化真能省钱?聊聊运维自动化如何帮企业优化IT成本
自动化真能省钱?聊聊运维自动化如何帮企业优化IT成本
133 4
|
4月前
|
人工智能 运维 安全
运维老哥的救星?AI 驱动的自动化配置管理新趋势
运维老哥的救星?AI 驱动的自动化配置管理新趋势
295 11
|
3月前
|
安全 Shell 持续交付
Debian Apache 自动化部署教程:4 种方法,从个人到企业批量装机
本文介绍在 Debian 系统中实现 Apache 自动化部署的 4 种实用方法,涵盖个人单机与企业批量部署场景。内容包括使用 Bash 脚本一键安装、通过 PXE 实现网络批量部署、借助 Ansible/Puppet 进行多机统一配置管理,以及利用 Preseed 文件自动完成安装配置。文章还提供操作示例与避坑建议,帮助用户提升部署效率,降低人为错误。
153 0

热门文章

最新文章