带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(1)

简介: 带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(1)

为了更好地帮助用户提升云上DevOps实践效率,缩短开发周期提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。该系列共10节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN独家支持。

 

【弹性计算技术公开课】-CloudOps云上运维季系列课程,首节课程由阿里云弹性计算高级产品专家马小婷主讲,课程主题为《CloudOps云上自动化运维,助力云上业务高效、稳定运行》,课程涵盖:云上业务持续运行面临的挑战、ECS自动化运维(CloudOps)的产品大图解析、ECS使用成熟度评估与洞察(ECS insight)等相关内容,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程预告。

 

CloudOps云上运维:https://developer.aliyun.com/topic/ecs-cloudops

 

以下内容根据马小婷的课程整理而成,供阅览:

 

image.png

1. 云上业务持续运行面临的挑战

 

image.png

 

大多数企业上云第一步就是购买算力,即云服务器。不同行业和规模的客户,由于他们的能力和行业属性有所区别,故对云服务器的诉求也不一样。根据阿里云ECS客户的调研和反馈,我们发现ECS客户在使用ECS的过程中,面临的主要问题大致可以分为以下五个方面:

 

∙        成本问题:当前大环境下,不少企业对成本优化的诉求非常强烈。由于云上是按需付费的服务模式,即我们使用了多少资源,就要为所买的资源付费,这与传统的提前一次性采购所有服务器的模式不一样,不受约束的按需购买就非常容易出现资源浪费的问题。如果我们不能对云上的资源进行很好的成本管理,很容易出现云上的资源成本超出线下支出的情况。所以,如何在不影响业务持续正常发展的基础上进行成本管理和优化是不少企业面临的首要挑战。

∙        效率问题:提效降本总是相伴相随的,资源的成本是显而易见的,但人效的问题很多时候却无法直接衡量或看得见。众所周知,自动化是提升运维效率的最佳方式,但自动化工具的建设和维护成本也是隐含成本。与线下IDC相比,云服务提供商也提供了丰富的工具和能力来帮助企业提升云服务器的运维效率,而如何利用工具或者服务能力降低云上资源的维护和管理成本,是不少企业面临的痛点。

∙        稳定性问题:虽然云上客户无需管理和维护底层物理基础设施,但并不意味底层基础设施是100%可靠的。虽然目前阿里云提供了业界领先的单实例SLA,即99.975%,但也不意味着底层基础设施100%不会出问题。站在业务应用的视角上来看,我们要做的是构建并提升整个应用的稳定性和可靠性,而不是单纯的依赖单个ECS实例的稳定性来保障整个系统的稳定性诉求。同时,当底层服务的稳定性出现任何问题时,我们业务侧如何快速恢复,缩短业务受损的时间,这也是ECS客户在云上面临的重要挑战。

∙        可用性问题:对于类似电商、社交平台等行业的客户而言,上云带来的最大便利性是资源便捷的可获取性以及云上的深度弹性。在线业务一般都会面临明显的峰谷波动,而服务的可用性是业务的重中之重,尤其是在业务高峰期的时候,我们需要快速的创建大量资源来满足临突发的流量需求,确保服务的可用性。但如何更好的利用云上弹性来实现业务的高可用,是不少客户在真正落地过程中面临的问题。

∙        安全合规问题:安全问题是不少企业在上云时最为关心和担心的问题,这也是很多人对云直接的条件反射,即很多人认为上云意味着所有数据都托管在公有云服务提供商上,那是不是所有人都可以访问我的资源?是不是业务很容易被攻击?那我的数据安全是否有保障?尤其是银行类或证券类类的客户,他们对数据的安全和合规尤为关注。其实云上也提供了非常丰富的安全能力,包括数据安全、计算安全、应用安全、操作系统安全,来保障业务在云上运行的安全可靠,但如何利用这些安全能力设计一个符合安全规范和合规的应用体系,是不少企业面临的痛点。

以上五个问题是目前ECS客户面临的主要问题,接下来我们一起看一下它和行业内客户面的问题是否具有一定的相似性。

 

image.png

前面我们介绍了ECS客户所面临的云上运维的五大挑战,回归到整个行业维度,根据上图展示的Flexera 2023State of the cloud report分析报告可以看到,对于大型企业,面临的Top 3的挑战是:管理云上成本、资源/技能不足 、 多云管理和安全问题。对于中小企业,面临的top 3的挑战是:管理云上成本、安全问题和合规问题。但对于所有企业而言,大家面临的最主要的问题还是:管理云上成本、安全问题和资源/技能不足等问题。

 

对于管理云上成本和安全这两个痛点,相信很多人都是有目共睹的。关于资源/技能不足的问题,我想详细展开介绍一下。与线下IDC相比,云上除了提供标准的各种算力外,它还提供非常多的标准化的自助服务能力,用户可以通过控制台或者OpenAPI自助使用。这意味着云上的运维方式和传统的运维方式是不一样的。我们不再需要像过去一样,从零开始什么都自己来构建,而是需要基于云厂商已经提供的能力,提升运维效率和体验。所以,在技能和资源方面,我今天的分享就是要告诉大家,我们有什么样的能力能够帮助大家解决什么样的问题,提升大家对云厂商能力的认知,让大家站在云厂商的肩膀上专注于业务本身价值的高效交付。

 

image.png

 

综合Flexera的行业分析报告与ECS客户面临的主要问题,我们可以看到,所有企业在云上进行业务运营时面临的挑战无非是以下五个:

 

成本管理:这里我用的是成本管理,而不是降成本,因为抛开管理讲优化和降本是非常简单粗暴的。成本管理的终极目标是以合理的成本来保障业务的正常运行,做到既不浪费也不短缺。

 

自动化提效:自动化是运维从诞生之初就一直追求的目标,所有运维人员都知道自动化可以提效,但是正如flexera分析,由于资源或能力的缺失,不少企业的自动化的能力和水平并不是很高,所以借助云上原生能力快速提升自动化能力和水平,也可以缓解业务所面临的挑战。

 

弹性高可用:对于电商、社交媒体等在线服务而言,会存在业务的明显峰谷波动,业务的高可用离不开资源的弹性。在业务高峰期,我们需要根据实际的业务需求快速扩容资源,满足突发流量需求,这在互联网行业是非常明显的痛点。在传统模式下,所有资源的准备和购买都需要提前规划和采购,如果是超出规划以外的计算资源,就很难满足了。而云上最大的特征之一就是提供了非常快的弹性速度,以及“深不可见”的弹性容量。但如何充分利用云上弹性能力来提升业务的高可用是很多线上业务面临的挑战。

 

稳定可靠:对于游戏类客户而言,业务的稳定性是重中之重,尤其是在游戏开服的前期,如果出现机器宕机,导致部分玩家突然被强制下线影响了游戏体验,会直接影响游戏的体验和口碑,严重情况下还可能会导致几千万上亿的宣发投资“打水漂”。所以如何利用云上的可观测能力、监控报警的能力以及故障演练的能力来提升整个业务的稳定性以及整个应用的可靠性,也是现在很多线上客户所面临的挑战。

 

安全合规:安全性和合规其实是两个方向。正如前面所说的,安全问题是很多客户在上云初期就持有的顾虑,前面的Flexera分析报告也印证了这一点,说明云上安全的重要性始终处于C位。但如何体系化地提升安全能力,尤其是基于云上默认已经提供的安全能力来构建安全体系是很多客户所关注的。至于合规,主要以银行、证券等金融行业为主,包括物理隔离、数据安全等,它需要端到端体系化的合规解决方案。

 

以上就是我们发现的云上业务持续运营面临的五大挑战。

2. ECS自动化运维(CloudOps)的产品大图

 

image.png

 

首先,看一下CloudOps的基础概念。很多人在听到CloudOps的时候可能会好奇它究竟是什么,我们听说过DevOpsFinOpsAIOps,那CloudOps是什么呢?

 

顾名思义,CloudOps其实就是云上自动化运维,和FinOps一样是一种运维理念。CloudOps = Cloud x DevOps, 强调的是充分利用云本身的特性更好地实践DevOps,加速业务价值的快速稳定交付,它的核心点是强调了云本身的特性,而不需要我们重复性的开发。云本身的特性包括云的高弹性、高度标准化、高自动化和自助服务模式等,这就意味着用户能够根据自己的需要按需取用,不需要依赖任何其他能力的支持。

 

CloudOps定义了企业在上云、用云以及管云过程中重点关注的五个维度,它和我们前面说到的云上客户常见的五个痛点是相呼应的,分别是成本Cost、自动化Automation、 可靠性Reliability、弹性Elasticity、安全性 Security,缩写为CARES

 

另外,CloudOps是阿里云提供的一套自动化运维套件的总称。为了持续提升客户业务在云上的可靠性和稳定性,阿里云提供了非常丰富的自动化工具,帮助客户实现云上DevOps全流程的可感知、可控制以及可衡量的能力,持续帮助客户解决成本、效率、稳定性、可用性、安全性的问题。比如,成本优化工具解决的就是成本的问题,自动化能力解决了自动化运维提效的问题,可靠性能力可以用于提升业务的稳定性、缩短业务受损时长,弹性能力解决了应用的可用性问题,安全合规能力提升了业务的安全性。

 

所以,CloudOps既是一种运维理念,也代表了阿里云在围绕运维体验为大家提供了一套标准化的工具的总称。

 

上图右侧是去年发布的CloudOps云上运维白皮书2.0的内容,欢迎大家扫描文末二维码进行下载和阅读。

 

image.png

 

接下来我将介绍一下ECS CloudOps套件。CloudOps这个名字听上去非常抽象,它究竟代表了什么样的工具,能够解决什么样的问题,以及它过去十年是怎样发展的呢?上面这张图可以给大家一个详细的说明。

 

2010年,阿里云发布了第一款云服务器,这也是阿里云提供的第一款云产品。2014年阿里云推出了第一款CloudOps产品,弹性伸缩服务,它能够根据业务的峰谷波动自动进行ECS资源的水平扩缩容,在需要时扩容,在不需要时缩容,既解决了应用可用性的问题,也解决了使用成本的问题。

 

2015年,阿里云推出了资源编排ROS,它是第一款IaCInfrastructure as Code,简称IaC)的产品,它提升了整个IasS层资源的部署效率。比如,一个正常的业务架构,它可能包含多种云产品,包括LBVPCECSRDS等等。在传统购买模式下,我们需要单独购买每个产品,再去做一些配置。通过ROS我们可以一次性交付这些资源,如果这些资源需要跨地域部署,我们也可以把这个应用架构在另外一个地域快速拉起来。

 

2016年,阿里云推出了标签Tag,它的功能是对所有的云资源打标签分组,只有打完多维度的标签之后,我们才能根据多维度对资源进行更精细化的管理。标签Tag解决了管理的效率问题,也解决了安全的问题,还可以帮我们做多维度的成本分析来优化成本。

 

2017年,阿里云推出了弹性供应APG,它能够大规模交付ECS的算力,尤其是spot的算力,它解决了交付效率和交付成本的问题。

 

2018年,阿里云推出了云助手,它是ECS自动化运维的通道。云助手是ECS内部安装的一个插件,通过这个插件用户可以在不需要登录ECS的情况下,就能执行远程命令完成对资源的配置。它对标开源的ansible工具,是做大规模批量运维的基础,解决了效率和安全的问题。

 

20196月,阿里云推出了服务器迁移中心SMC,它能够帮助用户在不停机的情况下,一键把应用和数据迁移上云,同时也能实现业务跨可用区迁移。

 

20197月,阿里云推出了运维编排OOS,它是云上统一的自动化运维平台,能够提供定时任务、批量任务以及工作流等编排工作,解决了效率和安全性的问题。

 

2020年,阿里云推出了镜像构建服务,它能够帮我们做镜像的定制和自动化的构建,能够实现镜像的持续集成,还解决了DevOps里的持续集成的问题,提升了持续集成的效率。

 

在提供了这么多自动化能力的基础上,2021年阿里云推出了自动化运维套件CloudOps的概念,它是一站式DevOps的实践工具集,包含了我们前面提到的所有的自动化工具。

 

2022年阿里云发布了一个新的产品叫应用管理,以应用的维度打通DevOps的全流程。

 

以上就是阿里云CloudOps套件过去十年的发展历程。


更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(2):https://developer.aliyun.com/article/1405385

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
59 4
|
17天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
26天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
50 4
|
2月前
|
测试技术 Python
自动化测试项目学习笔记(一):unittest简单运行(初始化,清除,设置测试行为)
本文介绍了Python的unittest框架的基础用法,包括测试初始化(setup)、清除(tearDown)函数的使用,以及assertEqual和assertGreaterEqual等断言方法,并展示了如何创建测试用例,强调了测试函数需以test_开头才能被运行。
64 1
自动化测试项目学习笔记(一):unittest简单运行(初始化,清除,设置测试行为)
|
2月前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
77 1
|
2月前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
54 1
|
2月前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。
|
2月前
|
存储 运维 监控
高效运维管理:从基础架构优化到自动化实践
在当今数字化时代,高效运维管理已成为企业IT部门的重要任务。本文将探讨如何通过基础架构优化和自动化实践来提升运维效率,确保系统的稳定性和可靠性。我们将从服务器选型、存储优化、网络配置等方面入手,逐步引导读者了解运维管理的核心内容。同时,我们还将介绍自动化工具的使用,帮助运维人员提高工作效率,降低人为错误的发生。通过本文的学习,您将掌握高效运维管理的关键技巧,为企业的发展提供有力支持。
|
2月前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全面指南在当今数字化时代,运维作为保障系统稳定性和效率的重要环节,其重要性不言而喻。本文将深入探讨如何构建一个高效的运维体系,从监控系统的搭建到自动化运维的实施,旨在为读者提供一套完整的解决方案。
本文详细介绍了高效运维体系的构建过程,包括监控系统的选择与部署、日志分析的方法、性能优化的策略以及自动化运维工具的应用。通过对这些关键环节的深入剖析,帮助运维人员提升系统的可靠性和响应速度,降低人工干预成本,实现业务的快速发展和稳定运行。
|
2月前
|
运维 监控 网络安全
Python 在网络运维方面的自动化应用实例
Python 在网络运维方面的自动化应用实例

热门文章

最新文章