卓越架构之FinOps最佳实践

本文涉及的产品
应用实时监控服务-用户体验监控,每月100OCU免费额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 本文探讨了云成本管理的趋势和FinOps的最佳实践。随着云计算的普及,传统的IT管理模式已无法适应按需使用和按量付费的新模式,导致企业面临资源浪费和成本失控的风险。FinOps作为一种管理理念,强调运维、财务和技术团队的合作,通过数据驱动和业务价值驱动的方式优化云成本。文章介绍了FinOps的核心挑战、最佳实践及技术工具的应用,帮助企业有效管理和优化云成本,实现降本增效。

一、云成本管理的趋势和洞察

通过在服务客户的过程中抽象出的解决方法和方案协助FinOps的落地,从这四个方面讲FinOps的最佳实践如何落地,第一是云成本管理的趋势和洞察,首先云计算的核心的价值是高效、弹性可扩展,它的经营模式和使用方式是按需使用和按量付费,这和在传统的IDC时期用到的建一个机房的管理模式发生了巨大的变化,原来业务人员要买一个IT资源要建一个机房,首先业务是要提出诉求,财务采购运维管理者联合决策,这个决策周期可能是一到两个月,决策之后供应商开始做交付,整个交付过程可能是半年,如果业务想追加一些资源,这时候可能又是六到八个月的周期,针对采购财务运维管理者的角色。


一般情况下他们的协同一年发生一次到两次,但是阿里云改变协作模式,主要的原因是现在业务有云账号之后,直接在云上开通资源,不经过采购财务的前置管理,所有的采购财务都变成后面跟着业务人员管理整个资源的使用,以及报销相关的内容。阿里云的交付模式发生巨大的变化,从原来的IDC交付硬件。软件方面就是单独买一个软件做拼接,云的模式是软硬一体交付的,它更多的交付的是一个服务,服务是在线持续化的交付,一直在更新迭代,云计算本身的灵活性一定会改变原有的IDC的交付方式,改变之后,它提供灵活的东西,它的管理难度就高,所以它改变IT资产的管理模式,如果企业还在使用原有的IT管理模式管理云上的资产,这时它一定会产生资源浪费。


原因是一些业务没有成本管理,这个浪费的风险一定会有的。最新的行业报告表明,随着云计算的普遍使用,企业的用云支出的浪费现象非常普遍,如何有效的管理云上的成本已经成为企业最迫切解决的问题,这个问题的解决就是FinOps,它核心不是一套系统,它是一个管理理念,在这一套管理理念里面,它核心是决策者一年共识决策一次,接下来就要成为常态化的决策机制,决策者的责任是共担的,对于成本管理、成本优化是整个组织的责任。所以FinOps的最佳实践强调的是运维财务团队、技术和业务团队要彼此的合作。成本节省要人人有责,因为覆盖的人员、涉猎人员是相当广的,针对这种情况需要成立一个中心化的团队,持续的推广成本管理的重要性,做成本管理的核心提出是要用数据驱动、业务价值驱动的方式,FinOps核心还有一个观点是要灵活利用云上的成本管理工具,因为很多云厂商提供的原生的成本管理工具,它已经附带很多的治理和管理的经验,包括第三方的管理工具里面。


如果一个企业新开始做云上成本管理,建议是从供营商直接提供的云上成本管理工具以及第三方提供的工具着手。另外FinOps定义云上成本管理成熟度模型,主要分为三个阶段,第一个阶段是看清成本,第二个阶段是针对于一些成本找到优化的方式,直接把它优化执行掉,第三个阶段可以用一个平台承载优化的方式以及方法,把它沉淀到平台里自动化的运营。包括后续可以用单位的经济成本衡量成本管理,这是FinOps的方法论,针对方法论FinOps领域在过去一年有三大洞察,第一个洞察中大型客户,他们公司里面都有一些团队,或者已经成立一个FinOps的职位,专门用于云上的成本管理。通过FinOps基金会的社区的人员,情况的增长,包括从业者拿到的证书情况的增长,也验证和服务过程里面的一些数据是相吻合的,第二个洞察发现中大型企业的企业的上云成本的管理已经左移到上云的规划阶段,原来大家上云更多的是业务评估,评估结束后上云,发现成本管理不可控,已经是在运营维护阶段,现在随着云计算的普遍以及FinOps理念的普遍,发现中大型企业客户在上云之前就开始评估,防止上云之后到规划阶段的成本管理失控,左移到规矩阶段,这是第二个变化,第三个变化发现FinOps在很多大型企业已经成为一个常态化的机制,并且很多大型企业已经开始用单位的经济成本评估企业的成本管理,比如有的企业的主要的业务营销和交易,把它的交易的大模块换成交易的发生体量,比如每百万次的交易订单,它的IT成本作为一个衡量的指标,如果在成本优化的过程里面,比如五块钱百万订单变成三块钱百万订单,这就是成本管理团队管理的好。如果五块钱变成八块钱,这个成本管理团队就管理的不好,所以大企业已经把成本优化和管理作为常态化的机制开始衡量优化的标准,但是中小企业让企业接受FinOps理念领域再去做事情,以上是三个洞察。

 

 

二、FinOps的主要挑战

接下来看FinOps目前的主要挑战,根据FinOps基金会2024年调研1245个用户的调研报告,这1245个用户来自于全球各地,所属的公司的IT年支出成本平均是在4400万美元,这个调研报告是相当准确的,基于2024年的调研报告,看到现在FinOps的主要的挑战是围绕九个方面,针对这九个方面把它分成管理领域和技术领域,在2024年之前,管理领域是排在前面的,在2024年开始,技术领域已经排在前面,从这方面来证明FinOps的理念已经被很多公司在接受,另外可能和经济环境有关,着重降本增效的落地,针对现在遇到的九个挑战。

 

三、FinOps最佳实践篇-管理篇

接下来将从两个方面介绍在降本增效过程中成功的方法论,以及落地的实践的方案。首先从管理看实施FinOps可行的有效的管理方式。管理上主要是把FinOps的管理理念让使用云计算的公司领导层以及周边团队认可,因为云计算本身发生的巨大变化,只有管理才能够把成本管理好,这是它的核心挑战,在服务客户时发现两个组织协作模式比较有效,第一种是中央集中的管理模式,这种游戏公司用的比较多,他的核心是业务团队,只负责开发业务。中央IT团队是负责运维安全、FinOps相关的所有都在中央IT团队,这个团队对应的权责是非常大的,他负责所有的产品成型之后的所有运营运维。这种适合业务稳定型的企业,包括产品比较单一的,比如适合游戏行业,另外是追求财务的流程标准化和规范化的企业,就是对财务合规、财务标准比较追求极致的企业。


目前阿里巴巴集团是用中心辐射管理模式,它的核心就是FinOps的中心管理团队,它主要的职责是制定政策,做相关的优化工具,以及推动有效的方法。这个团队研究出来方法之后发现可优化的点,根据这些工具和方法做任务分发,任务分发到业务团队,中心团队是不做具体的治理任务的,更多的治理任务是下发给业务团队,有业务团队的运维和FinOps相关领域的角色执行落地,中心运营团队主要是运营的职责比较大,这个团队的压力也会比较大,因为需要他有很强的协调能力以及价值宣导能力证明FinOps今天做的好与不好,以及每个业务团队红黑榜机制都要run起来。


这是模式的一个好的地方和不好的地方,它适用的企业主要就是复杂组织结构的,因为有很多企业的组织结构比较复杂,并且多元化的企业比较适合中心辐射管理模式,因为针对多元化产品的企业,通过中央集中管理模式对中央IT团队的要求是极高的,所以它比较适合中央辐射管理模式,另外就是创新与标准化并重的企业。建议都是用中心辐射管理模式,因为它毕竟比较灵活并且不会抑制创新,这是常见的FinOps组织的协作模式。


实施FinOps十的过程里面,正常的运营逻辑和实施方式,包括三部曲,首先建降成本,第二建体系,第三讲价值,首先要让大家看到管理是有效的,通过常年的积累,有很多资源是闲置或计费方式是可以优化的,按二八原则,很快就可以找到很多优化的资源,把它换算成年化价值跟领导汇报,汇报完之后告诉领导。如果不优化,结果每年会有很多浪费,它是一年一年滚动且会增加的。今天由于做这件事情,比如十年将减少多少浪费,这是降成本,看到效果后,接下来是建平台,要用一个平台把降成本的方式全部沉淀到平台,平台建上后,它就可以自动分发治理,有了平台之后再讲价值,这就是有事实依据和未来,实施FinOps的三部曲首先降成本,成本、质量、速度完整的正三角是不可能的,但是这是做成本管理追求的极致,因为所有的业务在不同的发展阶段,它的要求是不同的。


比如说在刚开始起步的阶段,是追求的质量和速度,要先抢占市场,这时候成本是可以忽略不计的,可以不计成本抢占市场,等业务稳定,市场占有之后,所有的成本才会被逐步的拉出来,慢慢的形成一个正规的三角形,所以做成本优化的时候不要一下就想把三者平衡掉,因为难度是极高的,所以建议要顺应业务的发展。降成本首先建议先降运营成本,因为运营成本对业务是没有任何影响的,主要是通过比如测试环境,把它所有的测试环境的资源把标记出来,标记出来之后,可能有一些测试环境是非常高配的就可以先降配,这种也不影响资源。


另外优化购买方式,比如原来可能按量付费用的比较多,本来按量付费就比较贵。可以用一些节省计划,比如包年包月把按量付费替换掉,它本质上的资源是不受任何的影响的,对于业务也不会产生影响。释放闲置资源,生产环境利用率提高,这些都是运营上的降本的方式和方法,这些初见成效之后就可以推动技术降本。比如工作负载的调度降本,包括要用一些容器化产品重构代码,重构运维平台,这就是一些技术降本的手段,这是在降成本的一些方式和方法,针对建平台,在服务客户的过程发现有的客户可能就一个团队,忽然做成本优化,做完之后效果就很明显,开始要整个公司降成本,可能在短期战役的收效非常高。收效之后,这个战役战报就结束了。可能一年之后,因为人员在流动,所有的系统业务都在发展,发现成本又上去了,这就是因为没有平台沉淀降成本的方式和方法导致的问题,所以要建平台,主要是数据驱动的平台,不一定要把平台写的很复杂,另外所有的过程都是先止血后治理,因为所有的业务在治理的时候难度都比止血很大,因为业务在跑,要治理是很难的,但是止血是容易的,所以在流程上建议方式是先止血后治理,治理的时候一定要责任划分,因为只有责任划分到具体的人,这个人才会推动这件事情继续往前,这个是在流程治理上,另外就是可以组织经常性的分享。分享治理方法到同公司的其他团队一些启发,这些启发就可以形成逐渐的把分FinOps的文化推广起来,从原来是FinOps中心化的团队推动着业务团队。促使团队有自我的意识把成本管理好,这是FinOps价值宣导里面希望做到的核心,这是建平台。


另外建平台有两种模式,第一种就是建看板,它是在服务客户里面是比较常见的一种方式,因为一般情况下建看板就够,云计算厂商基本上提供比较多的工具,把数据吐给大家,大家基于数据建一定的看板,建完看板,只要能够发现问题,这些看板的自动循环就可以做起来,还有一些超大型的企业,他们是建平台的,因为阿里巴巴内部也是建平台的,原因就是平台原来就是有一套运维管理系统,这套运维管理系统上云之后,所有的都要和这套运维管理系统要兼容协同,协同的时候它需要本身有一个平台把数据接回去,有一部分工作量是必须要付出的,否则原有的运维流程都要改变,建平台一定要考虑投入产出比的问题,要看是否有比较大的团队,因为阿里巴巴集团大概是有大几百人的团队做整体的运维管理体系,云计算相关的成本管理平台大概都有几十人,所以评估ROI是否合理,以上就是从管理方面在实际服务客户的过程的方式和方法。

 

四、FinOps最佳时间篇-技术篇

接下来实践方式和实践技术上看,现在面临五大问题,针对五大问题讲阿里云提供的工具:


第一是减少浪费和未使用的资源,阿里云上是有很多的工具的,一个是配置审计,另一个是智能水位分析,配置审计的核心是找出闲置的资源进行优化,减少浪费,比如一些未绑定的IPEIP,包括闲置的ECS和 未挂载的磁盘,这些都是可以优化的点,只要找到对应的资源拥有者就可以优化。


第二是智能水位分析,它可以发现一些低负载的资源,根据负载的情况,可以找到低负载的资源,从而对应的业务团队进行优化,这是关于减少浪费提供的两个工具,官网有很多工具可以做资源减少浪费的发现。


第三个基于承诺消费获取低折扣,因为阿里云已经提供相当丰富的售卖模式,节省计划的优化订阅,它主要是基于按量付费的场景,因为原有的按量付费。但是如果使用按量付费,它有比较稳定的使用,可能只是白天和晚上会有一些弹性,比如白天整个是要谈到每个小时消费一百,晚上可能谈到每个小时消费十块钱,这时候就可以选择节省计划,每个小时承诺十块钱,拿到比按量付费要低的折扣。针对这个提供智能化、自动化的优化方案,方式优化,建议在成本优化里面,费用与成本管理的成本优化里面提供工具,在这个里面可以直接点击立即优化,就可以看到优化后的效果,如果所有的资源是有按部门的,可能某些部门是需要优化,其他的部门不要优化的情况,也提供个性化的节省计划的测算能力,可以按照个性化的方式测算。


针对第三个整体的挑战问题,就是准确的预测支出,上云之后支出变得不可控,阿里云在上云前和用云中,提供多种的预测方式。首先在上云前提供TCO计算器,只要输入IDC相关的配置,就可以自动计算出在IDC期间所有的每年的消费情况,以及上云之后应该对应的配置,这个配置对应的金额情况、消费情况都会表达出来,整个测算方式提供三种。


第二个是在用云中成本分析工具可以帮大家预测未来12个月的消费,比如有些公司要做预算,其实是要做明年12个月的预算,可以通过成本分析工具预测的数据,直接把它下载下来做微调,可能就可以成为明年的预算,这是关于用云中提供的一些工具,另外还提供预算监控的工具以及异常检测,预算监控是企业每年都会做预算,它的预算一般是按月去滚动的,可以把这个预算配到预算管理模块配到系统面。配到系统后,可以配预警值,当每月的预算和实际资源的消耗发生变化时,会有预警给到相关的人员,这个预警和成本分析都是打通的,可以一键成本分析看成本到底是哪个业务部门发生的,另外一个就是异常检测,有一个智能化的算法,可以根据历史消费情况去预测未来的消费区间,当实际的消费和预测的消费期间不匹配的时候,即为异常,这个异常就可以帮助运维同学关注到底在使用过程中有哪些异常,就可以去做相关的治理。


第四个问题就是成本分摊,成本分摊有两个核心的要点,一个就是账单,如何把消费账单分到业务部门,第二个就是如何把消费和资源的使用要匹配起来,也就是运维的成本,阿里云针对独享资源,提供按业务单元拆分,首先就是运维针对资源可以打标,财务人员基于标签可以做财务单元,系统就可以把业务部门的分账分出来。第二个就是共享资源的公摊处理,有一些网络安全基建的费用,它是作为财务单元的公摊。阿里云提供三种方式,一种是自定义,第二种是平均,第三种是按照资独享资源的业务消费比例分摊,把账整个分到部门对应的账单里面,就可以把分账再拆到实际的消耗维度,比如包年包月和资源包就可以拆到实际的资源消耗上,资源消耗之后,这个运维就可以观测整个资源的成本消耗和波动情况,这是关于成本分摊提供的一些能力。


最后是自动化监控和运营,提供两种方式,一种是开箱即用的成本分析,另一种是高阶的自主分析。开箱即用的成本分析是预制在费用以成本管理功能的成本分析功能,它主要支持多个类型,一个是分账单的分析以及摊销成本的分析。它支持报告的下载以及分析的结果下载。如果阿里云提供的分析视角可能不注意完成业务的视角分析,可以用Max Computer+Quick BI的高级自助分析工具分析,现在在费用中心的成本分析可以自助开通,开通后,阿里云会把账单自动投递到Max Computer,这样就可以借助Quick BI工具,分析出想要的视角,下面的图是给客户做的通过QuickBI的分析视角图。

相关文章
|
4月前
|
消息中间件 缓存 监控
优化微服务架构中的数据库访问:策略与最佳实践
在微服务架构中,数据库访问的效率直接影响到系统的性能和可扩展性。本文探讨了优化微服务架构中数据库访问的策略与最佳实践,包括数据分片、缓存策略、异步处理和服务间通信优化。通过具体的技术方案和实例分析,提供了一系列实用的建议,以帮助开发团队提升微服务系统的响应速度和稳定性。
|
5天前
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
12天前
|
Kubernetes 安全 数据安全/隐私保护
云卓越架构:容器安全最佳实践
本次分享由阿里云智能集团解决方案架构师张玉峰主讲,主题为“云卓越架构:容器安全最佳实践”。内容涵盖容器安全的挑战、云原生容器安全架构及典型场景。首先分析了容器安全面临的问题,如镜像漏洞和权限管理。接着介绍了容器安全架构的五个维度:身份权限管理、配置安全检查、运行时防护、镜像安全检测及发布的安全管控。最后通过具体场景展示了容器身份与权限管理、密钥管理、运行时防入侵等最佳实践,强调了安全左移的重要性,确保从开发到运行的全生命周期安全覆盖。
|
2月前
|
消息中间件 监控 安全
构建高效微服务架构:最佳实践与挑战
在现代软件开发中,微服务架构因其高度的可扩展性、灵活性和敏捷性而受到青睐。本文深入探讨了构建高效微服务架构的关键策略,包括服务的划分、通信机制、数据管理、部署与监控等方面的最佳实践。同时,文章也分析了在实施过程中可能遇到的挑战,如服务间的依赖管理、数据一致性问题、安全考量及性能优化等,并提出了相应的解决方案。通过实际案例分析,本文旨在为开发者提供一套实用的指南,帮助他们在构建微服务系统时能够有效规避风险,提升系统的健壮性和用户体验。
|
3月前
|
监控 Cloud Native 持续交付
云原生架构下微服务的最佳实践与挑战####
【10月更文挑战第20天】 本文深入探讨了云原生架构在现代软件开发中的应用,特别是针对微服务设计模式的最优实践与面临的主要挑战。通过分析容器化、持续集成/持续部署(CI/CD)、服务网格等关键技术,阐述了如何高效构建、部署及运维微服务系统。同时,文章也指出了在云原生转型过程中常见的难题,如服务间的复杂通信、安全性问题以及监控与可观测性的实现,为开发者和企业提供了宝贵的策略指导和解决方案建议。 ####
56 5
|
2月前
|
Kubernetes Cloud Native 持续交付
云原生架构下的微服务设计原则与最佳实践##
在数字化转型的浪潮中,云原生技术以其高效、灵活和可扩展的特性成为企业IT架构转型的首选。本文深入探讨了云原生架构的核心理念,聚焦于微服务设计的关键原则与实施策略,旨在为开发者提供一套系统性的方法论,以应对复杂多变的业务需求和技术挑战。通过分析真实案例,揭示了如何有效利用容器化、持续集成/持续部署(CI/CD)、服务网格等关键技术,构建高性能、易维护的云原生应用。文章还强调了文化与组织变革在云原生转型过程中的重要性,为企业顺利过渡到云原生时代提供了宝贵的见解。 ##
|
2月前
|
监控 安全 Serverless
"揭秘D2终端大会热点技术:Serverless架构最佳实践全解析,让你的开发效率翻倍,迈向技术新高峰!"
【10月更文挑战第23天】D2终端大会汇聚了众多前沿技术,其中Serverless架构备受瞩目。它让开发者无需关注服务器管理,专注于业务逻辑,提高开发效率。本文介绍了选择合适平台、设计合理函数架构、优化性能及安全监控的最佳实践,助力开发者充分挖掘Serverless潜力,推动技术发展。
89 1
|
3月前
|
监控 安全 Java
构建高效后端服务:微服务架构深度解析与最佳实践###
【10月更文挑战第19天】 在数字化转型加速的今天,企业对后端服务的响应速度、可扩展性和灵活性提出了更高要求。本文探讨了微服务架构作为解决方案,通过分析传统单体架构面临的挑战,深入剖析微服务的核心优势、关键组件及设计原则。我们将从实际案例入手,揭示成功实施微服务的策略与常见陷阱,为开发者和企业提供可操作的指导建议。本文目的是帮助读者理解如何利用微服务架构提升后端服务的整体效能,实现业务快速迭代与创新。 ###
74 2
|
4月前
|
Kubernetes Docker 微服务
构建高效的微服务架构:基于Docker和Kubernetes的最佳实践
在现代软件开发中,微服务架构因其灵活性和可扩展性而受到广泛青睐。本文探讨了如何利用Docker和Kubernetes来构建高效的微服务架构。我们将深入分析Docker容器的优势、Kubernetes的编排能力,以及它们如何结合实现高可用性、自动扩展和持续部署。通过具体的最佳实践和实际案例,读者将能够理解如何优化微服务的管理和部署过程,从而提高开发效率和系统稳定性。
|
5月前
|
JSON 测试技术 API
探索微服务架构下的API设计最佳实践
微服务架构的普及带来了开发灵活、可扩展的系统的新机遇,但同时也对API设计提出了更高的要求。有效的API设计不仅影响系统的可维护性和可扩展性,还直接影响开发效率和用户体验。本文将深入探讨在微服务架构下如何设计高效、可靠的API,重点介绍RESTful API设计原则、版本控制策略、身份认证机制及错误处理最佳实践,并结合实际案例提供具体的实现建议。
下一篇
开通oss服务