近日,阿里云凭借在稳定性领域的全栈投入,获评中国信通院混沌工程实验室 2022 年度杰出贡献企业,并斩获“云系统稳定安全运行优秀案例”活动中多领域优秀案例。阿里云持续推动企业 IT 系统建设,保障千行百业安全稳定的实现数字化转型与创新。
此次“云系统稳定安全运行优秀案例”活动共收集超 100 份申报材料,历经多轮专家评审共评选出 7 个技术领域的众多优秀案例。旨在挖掘行业最佳实践案例,为众多企业的稳定安全运行提供参考。接下来,我们将为大家一一进行解读。
全链路压测优秀实践案例 :《阿里云全链路压测实践》
在数字化转型 & 升级背景下,政企客户逐步将业务应用迁移上云并进行分布式改造,业务架构也变得更加复杂。分布式环境下,任意节点都可能成为性能瓶颈,同时系统可用性随着业务快速增长,面临严峻且不确定的挑战。在此背景下,如何准确衡量应用能够承载的极限流量水位成为挑战。传统压测方法存在高成本、高复杂度、难以维护、压测结果不精准等劣势,而无法满足以精准流量模拟进行低成本容量预估的强需求。
阿里云全链路压测(End-to-end Performance Testing)正是为解决这个问题而诞生。全链路压测支持主流中间件,横跨 RPC、日志、存储、消息队列等种类,通过流量染色、标记透传,赋予施压过程以流量隔离的能力,使得在不污染生产库的前提下对真实的生产环境做压测,帮助客户获取最真实精准的生产环境抗压水位数据。
云系统运行故障应急处置实践案例:《阿里云数字化安全生产平台及落地实践》
随着越来越对企业业务应用上云并进行分布式架构改造,业务架构变愈发复杂,敏感程度也变高。传统运维手段存在工具割裂,面向基础设施而非业务,被动运维,缺乏面向分布式架构应用的规范稳定保障体系等劣势,使得有效保障业务稳定性和连续性成为挑战。
针对以上挑战,秉承着平台运维理念的数字化安全生产平台(Digital Production Stability)应运而生,平台核心面向 1- 5-10 应急响应场景,提供应急事件和故障的发现、响应和处理,提供应急场景的定义与管理、故障监控布防、故障上报、应急协同、过程跟踪、故障恢复、改进措施的全生命周期管理能力。帮助企业提升业务稳定性,提供故障应急场景的一站式服务。
云系统容灾优秀实践案例:《阿里云应用多活容灾解决方案》
为了预防和避免线上系统遭遇天灾人祸,保障业务持续运行并对外提供服务,通常有灾备、多活等多种方案。传统容灾大多建立在数据级容灾基础上,灾难发生时会在约定时间范围(RTO)内恢复运行,尽可能减少灾难带来的损失。但在实际实施时,由于灾备中心存在平时不提供服务,关键时刻无法确定是否成功切换;大体量业务无法解决单地域资源瓶颈;闲置状态成本浪费比较高等问题。
应用多活作为应用容灾的重要形式,在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务。当灾难发生时,多活系统可以分钟级内实现业务流量切换,用户甚至感受不到灾难发生。阿里云应用多活容灾解决方案具备分钟级RTO。恢复时间快。资源充分利用。资源不存在闲置的问题,多机房多资源充分利用,避免资源浪费。切换成功率高。流量精准控制。应用多活支持流量自顶到底封闭,依托精准引流能力将特定业务流量打入对应机房,企业可基于此优势能力孵化全域灰度、重点流量保障等特性。
在以上案例背后,我们可以看到软件行业需要标准化技术能力和方法论来保障线上业务稳定性。从 2018 年起,阿里巴巴集团致力于 IT 软件领域的安全生产建设:加强高可用架构基础建设的同时,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和灾难恢复能力等目标,形成一套完整的安全生产方法体系。
在 2022 杭州 · 云栖大会上,阿里云数字化安全生产平台 DPS 重磅发布,DPS 是以保障业务连续性为目标的一站式管控 SRE 平台,助力传统运维向 SRE 转型,企业级应用对业务连续性要求较高,若发生故障则资损严重,在SRE 转型初期就需要将安全生产理念纳入其中;对于以互联网架构为核心的中等规模业务,可以通过阿里云应用高可用服务 AHAS、压测服务 PTS 的产品体系来保障核心场景的稳定性和韧性,而自身则可以更加专注在业务创新中;对于中小规模的开发者,也可以通过阿里云提供的面向高可用的中间件框架和工具体系如 ChaosBlade、AppActive、Sentinel,构建自身的高可用体系。
可以看到安全生产是高可用的未来方向,阿里云通过完整产品家族,覆盖混沌工程、全链路压测、多活容灾、安全生产等企业安全生产场景,并灵活支持不同部署形式。帮助企业以云原生手段来应对业务高速迭代,促进业务与 IT 的全面协同,多维度来帮助客户建立完善专业的业务连续性保障体系。
云服务的运行稳定已成为信息通信行业安全生产的重要组成部分。确保云服务的稳定性和业务的连续性是为安全生产提供安全稳定的网络运行环境,意义重大,责任重大。阿里云一直坚持推动数字化转型与创新,帮助企业建立安全管理体系,健全安全责任制;同时,增强各类系统稳定性风险的防控能力与应对能力。建立云服务稳定运行标准体系及云服务可用性监测平台,促进云服务健康稳定持续发展。为金融、交通、电信、电力和制造等各行业和领域用户提供 IT 系统稳定性解决方案和服务。