带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(1)

简介: 带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(1)

为了更好地帮助用户提升云上DevOps实践效率,缩短开发周期提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。该系列共10节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN独家支持。

 

【弹性计算技术公开课】-CloudOps云上运维季系列课程,首节课程由阿里云弹性计算高级产品专家马小婷主讲,课程主题为《CloudOps云上自动化运维,助力云上业务高效、稳定运行》,课程涵盖:云上业务持续运行面临的挑战、ECS自动化运维(CloudOps)的产品大图解析、ECS使用成熟度评估与洞察(ECS insight)等相关内容,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程预告。

 

CloudOps云上运维:https://developer.aliyun.com/topic/ecs-cloudops

 

以下内容根据马小婷的课程整理而成,供阅览:

 

image.png

1. 云上业务持续运行面临的挑战

 

image.png

 

大多数企业上云第一步就是购买算力,即云服务器。不同行业和规模的客户,由于他们的能力和行业属性有所区别,故对云服务器的诉求也不一样。根据阿里云ECS客户的调研和反馈,我们发现ECS客户在使用ECS的过程中,面临的主要问题大致可以分为以下五个方面:

 

∙        成本问题:当前大环境下,不少企业对成本优化的诉求非常强烈。由于云上是按需付费的服务模式,即我们使用了多少资源,就要为所买的资源付费,这与传统的提前一次性采购所有服务器的模式不一样,不受约束的按需购买就非常容易出现资源浪费的问题。如果我们不能对云上的资源进行很好的成本管理,很容易出现云上的资源成本超出线下支出的情况。所以,如何在不影响业务持续正常发展的基础上进行成本管理和优化是不少企业面临的首要挑战。

∙        效率问题:提效降本总是相伴相随的,资源的成本是显而易见的,但人效的问题很多时候却无法直接衡量或看得见。众所周知,自动化是提升运维效率的最佳方式,但自动化工具的建设和维护成本也是隐含成本。与线下IDC相比,云服务提供商也提供了丰富的工具和能力来帮助企业提升云服务器的运维效率,而如何利用工具或者服务能力降低云上资源的维护和管理成本,是不少企业面临的痛点。

∙        稳定性问题:虽然云上客户无需管理和维护底层物理基础设施,但并不意味底层基础设施是100%可靠的。虽然目前阿里云提供了业界领先的单实例SLA,即99.975%,但也不意味着底层基础设施100%不会出问题。站在业务应用的视角上来看,我们要做的是构建并提升整个应用的稳定性和可靠性,而不是单纯的依赖单个ECS实例的稳定性来保障整个系统的稳定性诉求。同时,当底层服务的稳定性出现任何问题时,我们业务侧如何快速恢复,缩短业务受损的时间,这也是ECS客户在云上面临的重要挑战。

∙        可用性问题:对于类似电商、社交平台等行业的客户而言,上云带来的最大便利性是资源便捷的可获取性以及云上的深度弹性。在线业务一般都会面临明显的峰谷波动,而服务的可用性是业务的重中之重,尤其是在业务高峰期的时候,我们需要快速的创建大量资源来满足临突发的流量需求,确保服务的可用性。但如何更好的利用云上弹性来实现业务的高可用,是不少客户在真正落地过程中面临的问题。

∙        安全合规问题:安全问题是不少企业在上云时最为关心和担心的问题,这也是很多人对云直接的条件反射,即很多人认为上云意味着所有数据都托管在公有云服务提供商上,那是不是所有人都可以访问我的资源?是不是业务很容易被攻击?那我的数据安全是否有保障?尤其是银行类或证券类类的客户,他们对数据的安全和合规尤为关注。其实云上也提供了非常丰富的安全能力,包括数据安全、计算安全、应用安全、操作系统安全,来保障业务在云上运行的安全可靠,但如何利用这些安全能力设计一个符合安全规范和合规的应用体系,是不少企业面临的痛点。

以上五个问题是目前ECS客户面临的主要问题,接下来我们一起看一下它和行业内客户面的问题是否具有一定的相似性。

 

image.png

前面我们介绍了ECS客户所面临的云上运维的五大挑战,回归到整个行业维度,根据上图展示的Flexera 2023State of the cloud report分析报告可以看到,对于大型企业,面临的Top 3的挑战是:管理云上成本、资源/技能不足 、 多云管理和安全问题。对于中小企业,面临的top 3的挑战是:管理云上成本、安全问题和合规问题。但对于所有企业而言,大家面临的最主要的问题还是:管理云上成本、安全问题和资源/技能不足等问题。

 

对于管理云上成本和安全这两个痛点,相信很多人都是有目共睹的。关于资源/技能不足的问题,我想详细展开介绍一下。与线下IDC相比,云上除了提供标准的各种算力外,它还提供非常多的标准化的自助服务能力,用户可以通过控制台或者OpenAPI自助使用。这意味着云上的运维方式和传统的运维方式是不一样的。我们不再需要像过去一样,从零开始什么都自己来构建,而是需要基于云厂商已经提供的能力,提升运维效率和体验。所以,在技能和资源方面,我今天的分享就是要告诉大家,我们有什么样的能力能够帮助大家解决什么样的问题,提升大家对云厂商能力的认知,让大家站在云厂商的肩膀上专注于业务本身价值的高效交付。

 

image.png

 

综合Flexera的行业分析报告与ECS客户面临的主要问题,我们可以看到,所有企业在云上进行业务运营时面临的挑战无非是以下五个:

 

成本管理:这里我用的是成本管理,而不是降成本,因为抛开管理讲优化和降本是非常简单粗暴的。成本管理的终极目标是以合理的成本来保障业务的正常运行,做到既不浪费也不短缺。

 

自动化提效:自动化是运维从诞生之初就一直追求的目标,所有运维人员都知道自动化可以提效,但是正如flexera分析,由于资源或能力的缺失,不少企业的自动化的能力和水平并不是很高,所以借助云上原生能力快速提升自动化能力和水平,也可以缓解业务所面临的挑战。

 

弹性高可用:对于电商、社交媒体等在线服务而言,会存在业务的明显峰谷波动,业务的高可用离不开资源的弹性。在业务高峰期,我们需要根据实际的业务需求快速扩容资源,满足突发流量需求,这在互联网行业是非常明显的痛点。在传统模式下,所有资源的准备和购买都需要提前规划和采购,如果是超出规划以外的计算资源,就很难满足了。而云上最大的特征之一就是提供了非常快的弹性速度,以及“深不可见”的弹性容量。但如何充分利用云上弹性能力来提升业务的高可用是很多线上业务面临的挑战。

 

稳定可靠:对于游戏类客户而言,业务的稳定性是重中之重,尤其是在游戏开服的前期,如果出现机器宕机,导致部分玩家突然被强制下线影响了游戏体验,会直接影响游戏的体验和口碑,严重情况下还可能会导致几千万上亿的宣发投资“打水漂”。所以如何利用云上的可观测能力、监控报警的能力以及故障演练的能力来提升整个业务的稳定性以及整个应用的可靠性,也是现在很多线上客户所面临的挑战。

 

安全合规:安全性和合规其实是两个方向。正如前面所说的,安全问题是很多客户在上云初期就持有的顾虑,前面的Flexera分析报告也印证了这一点,说明云上安全的重要性始终处于C位。但如何体系化地提升安全能力,尤其是基于云上默认已经提供的安全能力来构建安全体系是很多客户所关注的。至于合规,主要以银行、证券等金融行业为主,包括物理隔离、数据安全等,它需要端到端体系化的合规解决方案。

 

以上就是我们发现的云上业务持续运营面临的五大挑战。

2. ECS自动化运维(CloudOps)的产品大图

 

image.png

 

首先,看一下CloudOps的基础概念。很多人在听到CloudOps的时候可能会好奇它究竟是什么,我们听说过DevOpsFinOpsAIOps,那CloudOps是什么呢?

 

顾名思义,CloudOps其实就是云上自动化运维,和FinOps一样是一种运维理念。CloudOps = Cloud x DevOps, 强调的是充分利用云本身的特性更好地实践DevOps,加速业务价值的快速稳定交付,它的核心点是强调了云本身的特性,而不需要我们重复性的开发。云本身的特性包括云的高弹性、高度标准化、高自动化和自助服务模式等,这就意味着用户能够根据自己的需要按需取用,不需要依赖任何其他能力的支持。

 

CloudOps定义了企业在上云、用云以及管云过程中重点关注的五个维度,它和我们前面说到的云上客户常见的五个痛点是相呼应的,分别是成本Cost、自动化Automation、 可靠性Reliability、弹性Elasticity、安全性 Security,缩写为CARES

 

另外,CloudOps是阿里云提供的一套自动化运维套件的总称。为了持续提升客户业务在云上的可靠性和稳定性,阿里云提供了非常丰富的自动化工具,帮助客户实现云上DevOps全流程的可感知、可控制以及可衡量的能力,持续帮助客户解决成本、效率、稳定性、可用性、安全性的问题。比如,成本优化工具解决的就是成本的问题,自动化能力解决了自动化运维提效的问题,可靠性能力可以用于提升业务的稳定性、缩短业务受损时长,弹性能力解决了应用的可用性问题,安全合规能力提升了业务的安全性。

 

所以,CloudOps既是一种运维理念,也代表了阿里云在围绕运维体验为大家提供了一套标准化的工具的总称。

 

上图右侧是去年发布的CloudOps云上运维白皮书2.0的内容,欢迎大家扫描文末二维码进行下载和阅读。

 

image.png

 

接下来我将介绍一下ECS CloudOps套件。CloudOps这个名字听上去非常抽象,它究竟代表了什么样的工具,能够解决什么样的问题,以及它过去十年是怎样发展的呢?上面这张图可以给大家一个详细的说明。

 

2010年,阿里云发布了第一款云服务器,这也是阿里云提供的第一款云产品。2014年阿里云推出了第一款CloudOps产品,弹性伸缩服务,它能够根据业务的峰谷波动自动进行ECS资源的水平扩缩容,在需要时扩容,在不需要时缩容,既解决了应用可用性的问题,也解决了使用成本的问题。

 

2015年,阿里云推出了资源编排ROS,它是第一款IaCInfrastructure as Code,简称IaC)的产品,它提升了整个IasS层资源的部署效率。比如,一个正常的业务架构,它可能包含多种云产品,包括LBVPCECSRDS等等。在传统购买模式下,我们需要单独购买每个产品,再去做一些配置。通过ROS我们可以一次性交付这些资源,如果这些资源需要跨地域部署,我们也可以把这个应用架构在另外一个地域快速拉起来。

 

2016年,阿里云推出了标签Tag,它的功能是对所有的云资源打标签分组,只有打完多维度的标签之后,我们才能根据多维度对资源进行更精细化的管理。标签Tag解决了管理的效率问题,也解决了安全的问题,还可以帮我们做多维度的成本分析来优化成本。

 

2017年,阿里云推出了弹性供应APG,它能够大规模交付ECS的算力,尤其是spot的算力,它解决了交付效率和交付成本的问题。

 

2018年,阿里云推出了云助手,它是ECS自动化运维的通道。云助手是ECS内部安装的一个插件,通过这个插件用户可以在不需要登录ECS的情况下,就能执行远程命令完成对资源的配置。它对标开源的ansible工具,是做大规模批量运维的基础,解决了效率和安全的问题。

 

20196月,阿里云推出了服务器迁移中心SMC,它能够帮助用户在不停机的情况下,一键把应用和数据迁移上云,同时也能实现业务跨可用区迁移。

 

20197月,阿里云推出了运维编排OOS,它是云上统一的自动化运维平台,能够提供定时任务、批量任务以及工作流等编排工作,解决了效率和安全性的问题。

 

2020年,阿里云推出了镜像构建服务,它能够帮我们做镜像的定制和自动化的构建,能够实现镜像的持续集成,还解决了DevOps里的持续集成的问题,提升了持续集成的效率。

 

在提供了这么多自动化能力的基础上,2021年阿里云推出了自动化运维套件CloudOps的概念,它是一站式DevOps的实践工具集,包含了我们前面提到的所有的自动化工具。

 

2022年阿里云发布了一个新的产品叫应用管理,以应用的维度打通DevOps的全流程。

 

以上就是阿里云CloudOps套件过去十年的发展历程。


更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——万字长文带你了解 CloudOps自动化运维的奥秘,助力云上业务高效稳定运行(2):https://developer.aliyun.com/article/1405385

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
30天前
|
弹性计算 运维 安全
云上DevOps自动化的最佳实践
本文介绍了云上DevOps自动化最佳实践,重点探讨了企业在上云过程中面临的成本管理、运维效率和弹性等问题。通过阿里云的产品和服务,企业可以实现自动化的资源管理、成本优化和高效运维。文章详细阐述了如何利用标签进行成本分析、选择合适的付费类型和实例规格、以及通过弹性伸缩降低成本。此外,还介绍了新功能发布,如统一的实例运维通道界面、AI辅助的运维工具等,帮助企业提升云上业务的管理和运营效率。
|
9天前
|
监控 运维
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
本文介绍如何设置和查看域名或证书监控。步骤1:根据证书状态选择新增域名或证书监控,线上部署推荐域名监控,未部署选择证书监控。步骤2:查询监控记录详情。步骤3:在详情页查看每日定时检测结果或手动测试。
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
|
9天前
|
Linux 持续交付 调度
HTTPS 证书自动化运维:https证书管理系统-自动化部署
本指南介绍如何部署Linux服务器节点。首先复制生成的Linux脚本命令,然后将其粘贴到目标服务器上运行。接着刷新页面查看节点记录,并点击“配置证书”选择证书以自动部署。最后,节点部署完成,后续将自动调度,无需人工干预。
HTTPS 证书自动化运维:https证书管理系统-自动化部署
|
9天前
|
运维
HTTPS 证书自动化运维:https证书管理系统之自动化签发
通过访问【https://www.lingyanspace.com】注册账户,进入证书服务菜单并新增证书。填写域名(单域名、多域名或泛域名),创建订单后添加云解析DNS记录进行质检。确认完成后可下载证书,并支持后续查看、更新和定时更新功能。证书过期前15天自动更新,需配置邮箱接收通知。
HTTPS 证书自动化运维:https证书管理系统之自动化签发
|
12天前
|
机器学习/深度学习 人工智能 运维
基于AI的自动化事件响应:智慧运维新时代
基于AI的自动化事件响应:智慧运维新时代
75 11
|
29天前
|
人工智能 运维 监控
AI辅助的运维流程自动化:实现智能化管理的新篇章
AI辅助的运维流程自动化:实现智能化管理的新篇章
406 22
|
22天前
|
Kubernetes Java 持续交付
小团队 CI/CD 实践:无需运维,Java Web应用的自动化部署
本文介绍如何使用GitHub Actions和阿里云Kubernetes(ACK)实现Java Web应用的自动化部署。通过CI/CD流程,开发人员无需手动处理复杂的运维任务,从而提高效率并减少错误。文中详细讲解了Docker与Kubernetes的概念,并演示了从创建Kubernetes集群、配置容器镜像服务到设置GitHub仓库Secrets及编写GitHub Actions工作流的具体步骤。最终实现了代码提交后自动构建、推送镜像并部署到Kubernetes集群的功能。整个过程不仅简化了部署流程,还确保了应用在不同环境中的稳定运行。
52 9
|
3月前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
3月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
130 1
|
3月前
|
开发者 Python
使用Python实现自动化邮件通知:当长时程序运行结束时
本文介绍了如何使用Python实现自动化邮件通知功能,当长时间运行的程序完成后自动发送邮件通知。主要内容包括:项目背景、设置SMTP服务、编写邮件发送函数、连接SMTP服务器、发送邮件及异常处理等步骤。通过这些步骤,可以有效提高工作效率,避免长时间等待程序结果。
100 9