企业云原生IT成本治理案例解析 - 中华财险云原生上云IT成本治理之路

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 从某种角度而言,中华财险基础设施团队的架构优化策略是非常朴素和实用的,通过数字化、模型化、可视化企业IT成本,用数据指导和优化IT成本治理,将集群的闲置资源率从上云前的30%优化到10%以内。企业IT成本治理向来不是新技术的试验场,选择合适自身情况的方案,用数据量化结果,有理有据地驱动企业降本增效。

作者:莫源


前言

中华财险是国内互联网金融行业的领导者,在企业云原生上云的过程中,完成了大量多租SaaS化业务的微服务化和容器化。其业务具有非常典型的金融属性,对架构稳定性、资源成本效率、数据安全等方面都提出了更高的要求和挑战,需要在实现降本增效的同时兼顾业务稳定性。在迁移的过程中,遇到了多租业务清算成本难、闲置/浪费资源发现难、优化策略与业务稳定性平衡难等挑战。中华财险工程师团队基于阿里云企业云原生IT成本治理方案沉淀了一套成熟的IT企业成本治理流程与系统,通过开箱即用的业务成本拆分、闲置资源可视化发现、弹性伸缩与混部等优化策略,将集群的闲置资源率从上云前的30%优化到10%以内。


中华财险的上云IT成本治理工作也荣获信通院2022年度云管和云网优秀案例:https://mp.weixin.qq.com/s/XBOcLcW9C0TO9mKhH7svbw


中华财险的云原生之路


云原生上云是目前企业上云的最佳路径,中华财险作为国内互联网金融行业的领导者也在驱动业务通过微服务化、云原生化的方式实现数字化转型。在云原生上云之前,中华财险的业务存在如下问题:


  • 业务资源的管理权限分散在各个团队,生产环境和测试环境下沉在业务团队,业务团队为临时验证的版本冗余了大量的资源。
  • 部分业务有明显的周期性,峰谷容量相差较大,造成资源低负载运行时间较长。
  • 压测环境单位时间内需要大量的临时机器,复用闲置资源需要腾挪机器、协调跨团队资源,流程和成本较高。
  • 缺少可量化的指标发现业务的浪费,单纯的利用率指标不能作为浪费的评判标准。


为了解决上述问题,中华财险工程师团队通过业务的微服务化、容器化的方式,将业务迁移到了阿里云容器服务之上,基于阿里云企业云原生IT成本治理方案沉淀了一套成熟的IT企业成本治理流程与系统,将IT成本的治理周期从原来的季度、月度,降低到了周、天。通过开箱即用的成本可视化与分摊能力,实时衡量团队资源浪费情况,实现数字化的降本增效。


下面是一些优化过程中的关键路径:


  • 通过命名空间进行多租业务的逻辑管理、财资拆分、浪费衡量


中华财险工程师团队将多租的SaaS化业务通过命名空间作为逻辑单元在同一个集群中进行统一管理,通过调整Request与Limit之间的比例,将原有独立容量管理的模型,转变为池化统一管理,提升资源的利用率。通过阿里云企业云原生IT成本治理方案提供的命名空间成本核算的能力,在一个集群内可以轻松实现不同业务的费用分摊,实现容量管理与财资管理。


1.png

通过ACK成本分析发现集群浪费情况以及各应用成本分布


  • 全量路压测进行容量预估与可靠性验证


在进行云原生化的过程中,中华财险工程师团队发现,业务团队提交的容量估算与实际的资源使用存在比较大的偏差。因此,在上云的过程中,中华财险工程师团队通过使用PTS(阿里云全链路压测服务)高仿真模拟环境全链路压测,确定系统水位和瓶颈,合理预估资源需求,将成本规模通过数字化的指标进行了建模,在保障集群容量可靠性的前体下,实现了成本规模的控制。

  • 建立成本浪费的衡量标准,发现浪费情况


单纯通过资源利用率的数值来判断业务是否存在浪费从实际场景上来看是不够有说服力的,业务团队冗余容量的策略一般会基于业务峰值的情况、程序高效运行的利用率区间、未来业务发展的情况等因素。在传统的成本治理周期以月度、季度甚至年度等更长时间的情况下,冗余是保障稳定性的最佳选择。为了解决这个问题,中华财险工程师团队提出了应用浪费度模型,通过结合资源利用率、波峰波谷振幅、业务断路器引入、业务成本趋势变化等多个因素进行整合,数字量化浪费比例,有效的发现了集群内的真实浪费情况。


2.png

通过 ACK 成本分析发现集群应用的浪费情况


  • 分时混部在线业务与临时业务错峰使用


在中华财险的业务场景中,有大量的临时任务、仿真任务,这些任务具有周期短、资源消耗高等特性,中华财险工程师团队发现集群的真实使用率在白天一直处在比较低的水平,而空闲的时间足够仿真任务和临时任务的执行。此外,在使用分时复用的时候,还配合了快上快下的抢占策略,既保障了集群的整体利用率提升,又能够在突增流量到来的时候,下线临时作业保障业务的整体的稳定性。


  • 定时伸缩实现核心业务资源预供给


中华财险有些业务存在明显的周期性和波峰波谷,资源比例相差数倍,在保障一定冗余的情况下,通过使用定时伸缩的方式,可以让出更多的集群的调度资源,让其他的临时作业可以跑得更快。

  • 闲置资源回收与业务弹性交付


当资源池化后,由于不用节点的调度策略打标和约束,会造成部分节点的调度水位较低,通过识别长时间低水位的节点的方式,可以发现集群中的闲置资源情况,降低资源浪费。并把一些低频度的资源交付通过弹性的方式进行优化,实现成本效率的进一步提升。

中华财险基础设施团队一路走来,经历了线上生产业务从传统IT架构到上云、上云原生的过程,在这个云原生化的过程中,中华财险的业务量也翻了数倍。经过云成本优化的一系列措施,某业务容器化后总降低配置:232C 400G ,节省约7台 32C 64G 的ECS的云计算资源,降低了约20%的服务器成本。在进行了混部、业务高峰低谷的弹性伸缩等优化后,平均成本优化率可达约15%。


最后


从某种角度而言,中华财险基础设施团队的架构优化策略是非常朴素和实用的,通过数字化、模型化、可视化企业IT成本,用数据指导和优化IT成本治理,将集群的闲置资源率从上云前的30%优化到10%以内。企业IT成本治理向来不是新技术的试验场,选择合适自身情况的方案,用数据量化结果,有理有据地驱动企业降本增效。


相关文章:

《阿里云首家通过《可信云·云成本优化工具能力要求》评估,云原生企业 IT 成本治理方案助力企业 FinOps

相关文章
|
12天前
|
消息中间件 存储 Cloud Native
云消息队列 Kafka 版 V3 系列荣获信通院“云原生技术创新标杆案例”
2024 年 12 月 24 日,由中国信息通信研究院(以下简称“中国信通院”)主办的“2025 中国信通院深度观察报告会:算力互联网分论坛”,在北京隆重召开。本次论坛以“算力互联网 新质生产力”为主题,全面展示中国信通院在算力互联网产业领域的研究、实践与业界共识,与产业先行者共同探索算力互联网产业未来发展的方向。会议公布了“2024 年度云原生与应用现代化标杆案例”评选结果,“云消息队列 Kafka 版 V3 系列”荣获“云原生技术创新标杆案例”。
|
1月前
|
Cloud Native 持续交付 开发者
云原生技术在现代企业中的应用与实践####
本文深入探讨了云原生技术的核心概念及其在现代企业IT架构转型中的关键作用,通过具体案例分析展示了云原生如何促进企业的敏捷开发、高效运维及成本优化。不同于传统摘要仅概述内容,本部分旨在激发读者对云原生领域的兴趣,强调其在加速数字化转型过程中的不可或缺性,为后续详细论述奠定基础。 ####
|
27天前
|
NoSQL Java Linux
《docker高级篇(大厂进阶):2.DockerFile解析》包括:是什么、DockerFile构建过程解析、DockerFile常用保留字指令、案例、小总结
《docker高级篇(大厂进阶):2.DockerFile解析》包括:是什么、DockerFile构建过程解析、DockerFile常用保留字指令、案例、小总结
254 75
|
3天前
|
存储 人工智能 Cloud Native
NAS深度解析:面向云原生应用的文件存储
本文深入解析了面向云原生应用的文件存储NAS,由阿里云专家分享。内容涵盖Cloud Native与AI浪潮下的技术创新,包括高性能、弹性伸缩、成本优化及数据安全等方面。针对云原生应用的特点,NAS在Serverless生态中不断演进,提供多种产品规格以满足不同需求,如极速型NAS、归档存储等,确保用户在高并发场景下获得稳定低延时的存储体验。同时,通过优化挂载参数和容器访问策略,提升整体性能与可用性。
22 11
|
27天前
|
存储 设计模式 算法
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象都无法单独完成的任务,它涉及算法与对象间职责的分配。行为型模式分为类行为模式和对象行为模式,前者采用继承机制来在类间分派行为,后者采用组合或聚合在对象间分配行为。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象行为模式比类行为模式具有更大的灵活性。 行为型模式分为: • 模板方法模式 • 策略模式 • 命令模式 • 职责链模式 • 状态模式 • 观察者模式 • 中介者模式 • 迭代器模式 • 访问者模式 • 备忘录模式 • 解释器模式
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
|
19天前
|
运维 Cloud Native Serverless
Serverless Argo Workflows大规模计算工作流平台荣获信通院“云原生技术创新标杆案例”
2024年12月24日,阿里云Serverless Argo Workflows大规模计算工作流平台荣获由中国信息通信研究院颁发的「云原生技术创新案例」奖。
|
17天前
|
监控 安全 Cloud Native
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
2024年12月24日,阿里云容器服务团队与云安全中心团队获得中国信息通信研究院「云原生安全标杆案例」奖。
|
24天前
|
存储 NoSQL Cloud Native
MongoDB云原生化:为企业开发注入高效动力
MongoDB云原生化为企业开发注入高效动力,分为三部分:1. 介绍阿里云和MongoDB的服务;2. 阿里云MongoDB解决自建模型痛点的功能,包括隔离性、海量数据处理、弹性能力及运维操作优化;3. 客户案例展示。通过云原生架构,MongoDB实现了灵活的扩展、高效的备份恢复和快速的回档能力,显著提升了企业的业务迭代速度和数据管理效率。典型客户如吉比特、莉莉丝、掌阅等受益于这些功能,实现了更稳定和高效的数据库服务。
|
1月前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
17天前
|
编解码 弹性计算 大数据
软硬结合助力倚天云原生算力再进化,加速大数据、视频转码上云步伐
本文介绍了云原生算力的进化,重点讨论了倚天710 CPU在大数据和视频转码场景中的应用与优势。倚天710采用ARM架构,通过物理核设计和CIPU加速卡优化,显著提升了高负载下的性能稳定性,并在实际应用中帮助客户实现了20%-40%的性能提升和成本降低。此外,文章还探讨了操作系统、编译器等底层软件的优化,以及如何通过龙蜥社区和阿里云平台支持更多应用场景,助力企业实现高效迁移和性能优化。

推荐镜像

更多