更安全更稳定,阿里云斩获多项云系统稳定安全运行优秀案例

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
云原生网关 MSE Higress,422元/月
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 近日,阿里云凭借在稳定性领域的全栈投入,获评中国信通院混沌工程实验室 2022 年度杰出贡献企业,并斩获“云系统稳定安全运行优秀案例”活动中多领域优秀案例。阿里云持续推动企业 IT 系统建设,保障千行百业安全稳定的实现数字化转型与创新。

近日,阿里云凭借在稳定性领域的全栈投入,获评中国信通院混沌工程实验室 2022 年度杰出贡献企业,并斩获“云系统稳定安全运行优秀案例”活动中多领域优秀案例。阿里云持续推动企业 IT 系统建设,保障千行百业安全稳定的实现数字化转型与创新。


此次“云系统稳定安全运行优秀案例”活动共收集超 100 份申报材料,历经多轮专家评审共评选出 7 个技术领域的众多优秀案例。旨在挖掘行业最佳实践案例,为众多企业的稳定安全运行提供参考。接下来,我们将为大家一一进行解读。


全链路压测优秀实践案例 :《阿里云全链路压测实践》


1.png


在数字化转型 & 升级背景下,政企客户逐步将业务应用迁移上云并进行分布式改造,业务架构也变得更加复杂。分布式环境下,任意节点都可能成为性能瓶颈,同时系统可用性随着业务快速增长,面临严峻且不确定的挑战。在此背景下,如何准确衡量应用能够承载的极限流量水位成为挑战。传统压测方法存在高成本、高复杂度、难以维护、压测结果不精准等劣势,而无法满足以精准流量模拟进行低成本容量预估的强需求。


阿里云全链路压测(End-to-end Performance Testing)正是为解决这个问题而诞生。全链路压测支持主流中间件,横跨 RPC、日志、存储、消息队列等种类,通过流量染色、标记透传,赋予施压过程以流量隔离的能力,使得在不污染生产库的前提下对真实的生产环境做压测,帮助客户获取最真实精准的生产环境抗压水位数据。


云系统运行故障应急处置实践案例:《阿里云数字化安全生产平台及落地实践》


2.png


随着越来越对企业业务应用上云并进行分布式架构改造,业务架构变愈发复杂,敏感程度也变高。传统运维手段存在工具割裂,面向基础设施而非业务,被动运维,缺乏面向分布式架构应用的规范稳定保障体系等劣势,使得有效保障业务稳定性和连续性成为挑战。


针对以上挑战,秉承着平台运维理念的数字化安全生产平台(Digital Production Stability)应运而生,平台核心面向 1- 5-10 应急响应场景,提供应急事件和故障的发现、响应和处理,提供应急场景的定义与管理、故障监控布防、故障上报、应急协同、过程跟踪、故障恢复、改进措施的全生命周期管理能力。帮助企业提升业务稳定性,提供故障应急场景的一站式服务。


云系统容灾优秀实践案例:《阿里云应用多活容灾解决方案》


3.png


为了预防和避免线上系统遭遇天灾人祸,保障业务持续运行并对外提供服务,通常有灾备、多活等多种方案。传统容灾大多建立在数据级容灾基础上,灾难发生时会在约定时间范围(RTO)内恢复运行,尽可能减少灾难带来的损失。但在实际实施时,由于灾备中心存在平时不提供服务,关键时刻无法确定是否成功切换;大体量业务无法解决单地域资源瓶颈;闲置状态成本浪费比较高等问题。


应用多活作为应用容灾的重要形式,在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务。当灾难发生时,多活系统可以分钟级内实现业务流量切换,用户甚至感受不到灾难发生。阿里云应用多活容灾解决方案具备分钟级RTO。恢复时间快。资源充分利用。资源不存在闲置的问题,多机房多资源充分利用,避免资源浪费。切换成功率高。流量精准控制。应用多活支持流量自顶到底封闭,依托精准引流能力将特定业务流量打入对应机房,企业可基于此优势能力孵化全域灰度、重点流量保障等特性。


在以上案例背后,我们可以看到软件行业需要标准化技术能力和方法论来保障线上业务稳定性。从 2018 年起,阿里巴巴集团致力于 IT 软件领域的安全生产建设:加强高可用架构基础建设的同时,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和灾难恢复能力等目标,形成一套完整的安全生产方法体系。


在 2022 杭州 · 云栖大会上,阿里云数字化安全生产平台 DPS 重磅发布,DPS 是以保障业务连续性为目标的一站式管控 SRE 平台,助力传统运维向 SRE 转型,企业级应用对业务连续性要求较高,若发生故障则资损严重,在SRE 转型初期就需要将安全生产理念纳入其中;对于以互联网架构为核心的中等规模业务,可以通过阿里云应用高可用服务 AHAS、压测服务 PTS 的产品体系来保障核心场景的稳定性和韧性,而自身则可以更加专注在业务创新中;对于中小规模的开发者,也可以通过阿里云提供的面向高可用的中间件框架和工具体系如 ChaosBlade、AppActive、Sentinel,构建自身的高可用体系。


可以看到安全生产是高可用的未来方向,阿里云通过完整产品家族,覆盖混沌工程、全链路压测、多活容灾、安全生产等企业安全生产场景,并灵活支持不同部署形式。帮助企业以云原生手段来应对业务高速迭代,促进业务与 IT 的全面协同,多维度来帮助客户建立完善专业的业务连续性保障体系。


4.png


云服务的运行稳定已成为信息通信行业安全生产的重要组成部分。确保云服务的稳定性和业务的连续性是为安全生产提供安全稳定的网络运行环境,意义重大,责任重大。阿里云一直坚持推动数字化转型与创新,帮助企业建立安全管理体系,健全安全责任制;同时,增强各类系统稳定性风险的防控能力与应对能力。建立云服务稳定运行标准体系及云服务可用性监测平台,促进云服务健康稳定持续发展。为金融、交通、电信、电力和制造等各行业和领域用户提供 IT 系统稳定性解决方案和服务。

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
7月前
|
搜索推荐 云计算
云开发对学生的影响
云开发对学生的影响
|
3月前
|
运维 负载均衡 监控
运维之光:打造高效、稳定的IT环境
在数字化浪潮中,企业对IT系统的依赖日益加深。本文将深入探讨如何通过高效的运维管理,构建一个稳定可靠的IT环境,确保业务连续性和数据安全。我们将从基础架构的优化、自动化工具的应用、团队协作与沟通的重要性,到持续学习与创新的必要性等方面进行详细阐述。无论你是初入运维领域的新手,还是希望提升现有系统性能的资深专家,这篇文章都将为你提供宝贵的见解和实用的策略。
70 1
|
5月前
|
人工智能 Serverless 异构计算
[AI Cog] 想要运营AI业务,但没有GPU?环境搞不定?使用Cog帮您轻松将业务部署上云
[AI Cog] 想要运营AI业务,但没有GPU?环境搞不定?使用Cog帮您轻松将业务部署上云
|
6月前
|
域名解析 弹性计算 开发者
期待已久,重磅回归,阿里云推出全新《高效构建企业门户网站方案》,你想了解的,这一篇就足够了。
期待已久,重磅回归,《高效构建企业门户网站方案》,你想了解的,这一篇就足够了。
24462 2
|
存储 监控 安全
时刻为创新提速|阿里云多款核心产品能力全面升级
5月17日上午,主题为“智在江苏,为创新提速”的2023阿里云峰会在常州市召开。
399 0
时刻为创新提速|阿里云多款核心产品能力全面升级
|
架构师 大数据 云计算
2023云成本优化能力建设·企业分享会顺利召开
2023年4月6日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的2023云成本优化能力建设·企业分享会在北京成功举办。会上公布了2023云优化和云MSP最新评估结果,组织了云优化能力提升计划2023最新成员单位亮相,对价值领航·先锋者活动进行解读,并邀请多位知名企业代表和技术专家围绕云成本优化的技术探索、应用实践等发表了主题演讲,为行业从业者带来更具实践价值的参考。
2023云成本优化能力建设·企业分享会顺利召开
|
存储 边缘计算 人工智能
《2022中国云游戏行业认知与观察》——第五章、元境|面向云游戏时代的 研运一体化服务平台——5.3 云游戏超1 亿小时稳定运行的背后,元境保障体系 的最佳实践
《2022中国云游戏行业认知与观察》——第五章、元境|面向云游戏时代的 研运一体化服务平台——5.3 云游戏超1 亿小时稳定运行的背后,元境保障体系 的最佳实践
171 0
|
存储 人工智能 搜索推荐
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
335 0
|
运维 前端开发 JavaScript
云HIS系统 公立二甲医院已应用三年 系统运行稳定、功能齐全
SaaS模式Java版云HIS系统,已在公立二甲医院应用三年,经过多年持续优化和打磨,系统运行稳定、功能齐全,界面布局合理、操作简便。融合B/S版电子病历系统,支持电子病历四级,电子病历系统采用前后端分离模式开发和部署。HIS与电子病历系统均拥有自主知识产权。
473 0
云HIS系统 公立二甲医院已应用三年 系统运行稳定、功能齐全
|
弹性计算 运维 Cloud Native
阿里云首家通过《可信云·云成本优化工具能力要求》评估
2022年5月19日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2022云管和云网大会”通过线上直播的形式成功召开。会上发布了《可信云•云成本优化工具能力要求 - 第1部分 原生工具》标准及首批评测结果。阿里云凭借在云上成本管理的产品能力,以满分的成绩通过了全部33个能力指标,成为国内首家通过该项评估的云服务商。 企业用云程度加深,云成本优化诉求日益迫切全球数字经济背景
阿里云首家通过《可信云·云成本优化工具能力要求》评估