云上IT“新”治理:体系化助力企业上好云、用好云、管好云

简介: 随着云计算的普及,企业上云已不再是难题,如何用好和管好云成为新的挑战。阿里云通过Landing Zone和Well-Architected Framework(WAF)帮助企业搭建安全合规、可扩展的多账号环境,并提供涵盖安全、稳定性、效率、成本和性能五大支柱的最佳实践。其中,Landing Zone助企业构建隔离环境,内置财务管理、资源规划等模块;WAF则提供详细指导原则,确保企业在云上的应用环境安全、稳定、高效。此外,阿里云还推出了一系列工具和服务,如身份权限管理、配置审计、成本分析等,助力企业提升云治理成熟度。

一、云上IT治理的新挑战

1.云计算采纳阶段的变化

首先展示部分数据,因为观点表达需要数据支撑。左侧数据源于公共云采纳报告。该报告将云计算采纳分为博权阶段、begin阶段和advance阶段,分别代表企业对云的不同态度,如观望、advance是深度拥抱和深度应用。从报告可知,随着时间发展,博权阶段近乎消失,多数企业进入advance阶段。在五年前我们讨论的是什么是云,云是看不见摸不着的,是虚无缥缈的。但现在这表明云已不再是问题,新挑战在于上云以后如何用好云、管好云。另有fly star报告,调研700余家企业,其中79%为千人以上规模企业。报告总结上云后企业客户开发者关心的问题,涵盖云上安全、如何更好体系化地使用云以及云上成本和治理。这体现出云虽不再是问题,但用好和管好云成为关键。


2. 云的优势与带来的挑战

在此基础上,做了两部分总结。第一部分解答为何云不再是问题,第二部分说明新问题产生的缘由。首先看云的优势,云被各行各业拥抱的关键主要包括以下几点:其一,资源弹性供给且全球可获取,无需长期规划使用IT资源,它是随时随地可以进行弹性供给的资源。且供给范围为全球;其二,产品组合丰富多样,不像过去需不同供应商提供数据库、计算和存储等供应商,但是云有iaas、paas、SaaS、maas、 AI大模型,有丰富的云析产品组合;其三,云不再用简单的方式去产品化,而是不断地从产品化到服务化再到自主化进阶,可自助完成能力搭建与应用;其四work from ever where,上云后工作不受地域限制,只要有网络即可办公。这些优势基于传统的RG。


但是云的这些优势也相应带来一些挑战。总结如下:其一,安全方面,IDC时代以网络为安全隔离边界,网络内为内网,是好人。网络外为外网,人员不确定。云时代则以身份为新边界,公司内部员工有做这件事的权利,这就是新的边界。只需要这个身份就可以在任何地方登入。所以在云的时代从以网络隔离变成了以网络加身份为隔离。身份变成了公有云的安全基石。我们会遇到一些身份没有管理好而导致泄露的安全问题。其二,资源问题,云的效率是弹性供给的,但可能导致管理和秩序问题,因过于灵活可能失控,就像车辆有刹车才敢快开,当你有一定风险的时候就开的慢,所以效率的安全是一个平衡,需平衡效率与安全;其三,配置管理,云面对所有行业、不同客户,产品配置灵活,即可以面向个人开发者,比如大学生,或者世界500强,比如阿里云,以计算为例,个人用户和阿里云这样的企业云用对计算的要求不一样的。所以在云的视角,我们供给的任意一个产品配置丰富,产品服务企业若不按管理要求配置,可能出现问题;其四,全球化带来合规和监管挑战,尤其对于承载IT核心资产的云。阿里云和客户都需重视云上的IT管理和治理,良好的IT管理才能充分发挥云计算竞争力,促进业务发展。

 

二、Landing zone和well architected framework

1.Landing zone 的定义与作用

基于这些挑战,阿里云给出答案。五年前开始思考云及阿里云自身能做什么2021年发布云采用框架白皮书不断在此领域耕耘白皮书与信通院联合发布。白皮书发布后,2011年正式发布landingzone能力,解决企业先搬业务还是先搭建云上登录。截至目前,landinhgzone已服务全球约300多家大型企业。随着发展,到2020年有众多生态伙伴共同学习。2023年一方面解决上云问题,另一方面advance基于云上客户面对的不是上云,而是管理云,所以我们发布云卓越框架,虽然发布时间不长但已经服务1万5000多家客户,表明客户想法与我们一致


简单介绍的landinhgzone。其定义为在阿里云上搭建上云框架,助企业搭建安全合规、可扩展的多账号环境,从企业角度理解,是在云上搭建隔离环境,按业务和部门要求隔离。该框架不包含业务数据,最基础的框架,涵盖财务管理、资源规划、身份权限、审计、安全防护等八个模块,是公司在IT管理和治理上需内置的基线即管理要求,治理要求,先内置再搬迁默认满足要求Well archi它是一组指导原则和最佳实践,助企业在云上构建安全、稳定、高效的应用环境。


2.Well Architected ftamework的概念

Wellarch相对原来仅有五个支柱,分别是安全稳定、效率、成本性能,这些词汇通俗易懂,解决基本问题。要把云问题解决好,作为一个云用户或者企业角色者关心的是这些。只有确保安全确保稳定,业务才能进行可持续的发展。landinhgzone为例,搭建安全合规、可扩展的多端化环境后,软件有一个通产的问题就是描述的很好但是看不见也摸不着。搭建好以后就符合了企业管理的视角。可完成云上统一的多账号管理和财务管理,因为一般的企业会涉及不同的应用。不同的子公司。需要给每一个子公司权限进行业务流通。所以在landinhgzone这个框架下可以将财务管理先搭建好,子公司再进行购买资源就不需要跟阿里云谈deal,在同一结算工作下就可以完成这分工作。包括简化身份管理,比如我们在各个平台都注入了账号,每个app密码都比较复杂,我们希望在云上不需要这样,而是以企业的账号直接登录阿里云,即单点登录sso,这样在阿里云上就不需要记住任何账号。如果在企业内转岗或离职,阿里云上的账号自然也就消失了。这就是统一的身份管理。包括统一的企业组网。希望将核心应用放在核心的账号上,包括全面的安全防护和合规规则,以及可扩展方向的快速搭建。其设计原则是业务上默认隔离有限打通,比如开发环境和测试环境是隔离的。治理上集中管理,可以匹配供四数据管理的结构,将安全能力内置到框架内。

 

三、well -architected framework 5大支柱

1.安全支柱

接下来基于多年服务介绍well arch云卓越架构。从名称上,抛弃华丽辞藻,回归本质的安全、稳定、效率成本性。每个支柱下都有对应解决方案。这里产品与用于治理专场的区别在于,产品更多介绍新功能和性能,而治理专场更多考虑对企业和开发者的意义。例如在身份权限方面,要考虑如何管理人员身份和权限


下面简单介绍每个支柱。首先是安全支柱,身份凭证管理是当前安全关键。公有云身份是基石安全知识,比如黑客不是攻击进来的,而是登陆进来的。2024年一组数据显示,68%的恶意攻击是非人为恶意因素导致的,38%的泄漏事件是凭据导致的,77%的被盗的这把钥匙P被应用在应用程序的攻击上。针对此情况,分为身份与据和权限与管控两部分处理。在身份与凭据这一块,今年进行重大安全能力升级,包括默认强制多因素认证mfa 在登录时除密码外还需加一个认证因子、手机或其他。多因素叠加,每一个因素丢掉的概率显著降低。


还进行默认禁止两年闲置的AK和控制的登录密码的禁用,以及AK的网络防控。在权限这一块,按照最小化全线的原则进行几个新能力发布,包括授权策略的缴验、全线审计审计权限是否过大需要写入OSS但是却给了读取SOS的权限包括有无闲置权限,赋予这么多的权限是否有些权限并不会用到,还包括跨账号的分析等这是阿里云在整体身份能力上的升级。此外,主推用临时凭证替换长期访问凭证,用STS Tokoen 临时凭证,临时凭证有效期按小时计,可在任何场景下替换长期钥匙。比如在ECS上,function compete 上或者COR MAX COMPUTE 上,在任何一个平台阿里云都有零时凭证换取长期钥匙。这是安全专场的开头,9月20号下午有两个论坛,一个是身份,一个是权限,将更深入探讨此块内容,包括深入理解阿里人的身份体系构建,防止凭证泄露的十种方法,安全容器的最佳实践,权限体系,以及如何在阿里云上实施最强化权限等内容。


2.稳定性支柱

稳定性支柱方面,分享一个案例是风险检测。由于云的配置灵活,不同配置对应不同成本和可用性,很难有一种配置成本最低且可用性最高。这里有一个配置审计服务,可以审计云上开通资源的各种配置情况,比如ECS是否单口音去部署的,OSS是单可用去部署的,或跨多AZ部署的,以及ECS有没有开通释放保护好,IDS是否一键就能把它删掉还是开启了释放保护等。从容载容拓容量变更监控到不同领域配置审计都可以做对应审计,基于审计和告警,可以根据业务做出判断。今年云安全联盟的2024年报告中,错误配置是第一名的安全和稳定隐患,这些都在稳定性支柱里有对应的能力。此外,还有全站的可观测,包括采集哪些核心指标,哪些链路需要tracing,哪些日志做监控报警等,阿里提供了从监控的数据采集到日志的完整产品化能力,包括开源的普罗米修斯、自己发布的arms和大家可能每天都在打交道的SOS等,这些能力构建了一个全站可监控的体系,只有知道问题所在才能改进,把系统变成一个白盒。


3.效率支柱

效率支柱方面,因所有能力最终由开发者使用,无论是个人开发者还是企业开发者,站在开发者视角做了很多工作。首先是面向开发者的体验提升,阿里云一直与企业的应用系统和其他运维系统做深度集成,在这个过程中涉及研发和开发。过去不断提高API、SDK和命令行工具等能力,今年又做了一些能力提升,我们有一个API门户,比如将通益大模型的能力引入到开发者门户,阿里云云上的API很多,当我要做一件事的时候需要决定使用哪个API,意味着可以用资源语言的提出询问想要做的事情,如生产一台ECS,就能得到阿里云API的代码,这个能力也集成在阿里云开发者之中。还把开发者门户的整个完整功能集成到了IDE里面。此外,直接在jet bringts插件里完整的阿里云面向开发者的能力全部集成,不需要跳转出IDE就能完成阿里云的集成和开发。效率支柱这一点除了我们自己的工作以外还与业界的开源生态系统融合,像terraform,和我们做了深度的融合,海外客户对这一块的拥抱度非常高,国内拥抱度也在缓慢提升为了降低国内拥抱门槛,为了让大家能从最简单的开始适用,做了terroform开发者门户,从基础开始,把阿里云的teleform能力快速使用起来。类似于c++,只有理解了holo work之后才能了解它是如何运作的, 降低学习门槛,有同学做了terroform快速入门手册,把过去的经验都写到了里面,做低学习门槛。


4.成本支柱

成本支柱方面,成本是大家都关心的问题。过去几年不断打造能力,如果把一个东西做成黑盒,就不会是长久的生意,基于此,我们不断的把能力打扎实,今年做了一个成本高级分析能力,希望把成本能力打开,让大家看到每一分钱花在每一个业务上以及利用率。对于新的计算界面,如ACK,把成本能力直接做进去,因为我们是先做计算,再把成本叠加进去,在做ACK的成本能力问题我们直接把成本做进去,所以我们做了ack的finops套件,从一开始生产ACK标签能力,这种分类能力全部都内聚起来,当使用ACK时,有相应的finops套件,可以分析是一脉的而不外挂的插件。有一个成本的管理专场,有来自阿里、客户和宝马、想到等企业的人员,一起探讨云上的成本现状和精细化成本管理。


5.性能支柱

基于上述内容,我们和信通院一起做了一件有价值且持续的事情,就是制定了一个行业标准——企业用于治理财政部的标准,信通院会做更深度的分享和解读。希望通过这个标准提升国内用于管云的水平。在阿里云上,把能力工具化、产品化,将刚才所说的可以标准化的能力做度量,放在教育治理中心的产品里面,有很多可衡量的内容,比如是否开启长期密钥,是否OSS没有开启发布容栽等。

 

四、企业用云治理成熟度模型

深知此事靠阿里一家做不好,找到了很多同行者,第一批是客户,阿里云与客户搭建了高度的共鸣。第二批是客户体系庞大我们需要生态伙伴,大家一起打磨云作业框架和用于治理成熟做这样的一个模型。在这个过程中,有一个严格的考核,从报告的设计到模拟、实施、实操和验收,完整流程走完达到标准的伙伴才是合格的。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
12月前
|
运维 安全 架构师
架构师工具箱:Well-Architected云治理提效实践
本次分享基于阿里云Well-Architected Framework的最佳实践案例,涵盖企业从上云到优化的全过程。安畅作为国内领先的云管理服务提供商(Cloud MSP),拥有800多名员工,其中70%为技术工程师,为企业提供架构安全、数据智能等技术服务。内容包括Landing Zone与Well-Architected的关系、企业云治理现状及需求分析,重点探讨了安全合规、成本优化、资源稳定性和效率提升等方面的最佳实践,并通过具体客户案例展示了如何通过自动化工具和定制化解决方案帮助企业提升云上业务价值。
|
12月前
|
存储 机器学习/深度学习 人工智能
获评最高等级!阿里云首批通过信通院企业用云治理能力成熟度评测
获评最高等级!阿里云首批通过信通院企业用云治理能力成熟度评测
455 11
|
4月前
|
存储 运维 关系型数据库
从MySQL到云数据库,数据库迁移真的有必要吗?
本文探讨了企业在业务增长背景下,是否应从 MySQL 迁移至云数据库的决策问题。分析了 MySQL 的优势与瓶颈,对比了云数据库在存储计算分离、自动化运维、多负载支持等方面的优势,并提出判断迁移必要性的五个关键问题及实施路径,帮助企业理性决策并落地迁移方案。
|
12月前
|
运维 监控 安全
Landing Zone一站式上云框架场景和实践
本文将介绍阿里云Landing Zone的方案、应用场景及新功能。Landing Zone是云上安全可控、可扩展的架构,涵盖资源规划、财务管理、身份权限、合规审计、网络规划、安全防护、运维管理和自动化模块八大方面,帮助企业敏捷创新并满足IT治理需求。具体应用包括零售行业的多品牌管理、生命科学的数据交换、自动驾驶的合规监管和金融行业的严格合规要求。新功能则聚焦于财年上线的统一管控产品,如配额管理、Prometheus监控和网络IPAM方案,以及降低跨账号安全门槛。
|
12月前
|
监控 数据可视化 架构师
为什么企业需要开展架构治理?
随着数字化转型加速,企业面临的技术和业务环境日益复杂,传统架构难以应对快速变化的需求。企业架构治理成为数字化转型的关键,通过确保技术与战略对接、优化资源利用、降低风险和复杂性,提升企业灵活性、效率和创新能力,支持快速响应市场变化,推动数字化转型成功。
561 7
为什么企业需要开展架构治理?
|
12月前
|
运维 监控 安全
天财商龙:云上卓越架构治理实践
天财商龙成立于1998年,专注于为餐饮企业提供信息化解决方案,涵盖点餐、收银、供应链和会员系统等。自2013年起逐步实现业务上云,与阿里云合作至今已十年。通过采用阿里云的WA体系,公司在账号管理、安全保障、监控体系和成本管控等方面进行了全面优化,提升了业务稳定性与安全性,并实现了显著的成本节约。未来,公司将持续探索智能化和全球化发展,进一步提升餐饮行业的数字化水平。
|
12月前
|
SQL Cloud Native 安全
CMH云迁移中心:企业一站式上云工具实践
本文介绍了云迁移的趋势与挑战,以及阿里云推出的云迁移中心(CMH)工具。随着企业上云进程的推进,越来越多的企业积极拥抱云原生技术,但复杂业务处理、成本控制、技术架构升级和快速迁移等问题成为主要挑战。CMH通过评估、准备、迁移和割接四个阶段,提供自动化和智能化的解决方案,帮助企业简化上云流程,提升效率。案例显示,CMH成功助力某跨国企业平稳迁移,未来将继续优化用户体验并探索智能化迁移方案。
|
监控 安全 测试技术
2024年度云治理企业成熟度发展报告解读(三)五大支柱关键数据解读
本文深入分析了安全、稳定、成本、性能、运行等云治理五大支柱的关键数据,指出身份安全关注度显著提升,成为企业云计算中的核心焦点。
312 11
2024年度云治理企业成熟度发展报告解读(三)五大支柱关键数据解读
|
人工智能 安全 BI
2024年度云治理企业成熟度发展报告解读(一)云市场发展洞察
从2023年开始,阿里云携手埃森哲每年发布《云治理企业成熟度年度发展报告》,通过数据来解读企业在云上的稳定性、安全、效率、成本等方面的发展现状,并反映各行业头部客户的技术演进趋势。该报告已成为了解中国云计算行业发展趋势的重要参考。这次,埃森哲将带来最新出炉的2024年度发展趋势报告(导读版)解读。
2024年度云治理企业成熟度发展报告解读(一)云市场发展洞察
|
12月前
|
存储 人工智能 运维
AI + 可观测最佳实践:让业务从“看见”到“洞察”
本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分:一是监控、观测与洞察的区别及挑战,强调了数据整合和语义对齐的重要性;二是AI与计算如何重塑可观测性,通过UModel数字图谱和多模态存储分析架构实现数据联通;三是最佳实践与未来展望,展示了阿里云AI Stack可观测解决方案的应用案例,并总结了可观测性的四个发展阶段,最终愿景是借助AI力量让每个人成为多领域的专家。