阿里巴巴荣获年度最佳BCM创新实践奖

简介: 随着中国近年经济的高速发展,中国企业在亚洲乃至全世界的影响力也在迅速扩大。今年又恰逢一带一路峰会的召开,中国企业在迎来宝贵发展良机的同时,也将面临新的挑战。业务连续性管理作为企业发展保驾护航的重要手段势必得到更高的重视和更广泛的应用。

2017年9月,阿里巴巴在国际灾难恢复协会(DRI International)亚洲年度大会上斩获大奖,来自阿里基础设施事业群的全球运行指挥中心(GOC)团队获得“年度最佳BCM创新实践奖”(BCM:Business Continuity Management业务连续性管理)。国际灾难恢复协会(DRI International)亚洲大会是 DRII 在亚洲地区部分国家巡回举办的业务连续性管理年度盛会,宗旨是为亚洲地区的业务连续性管理专业人士提供一个 BCM交流技术、分享经验的平台。

全面保障业务连续运行

阿里经济体业务体量巨大,生态复杂,如何在业务高速增长的同时保证业务稳定连续的运行,对整个阿里都是一巨大挑战。经过多年的积累,阿里沉淀出一整套从故障预防、检测、定位、快速恢复到复盘演练的完整解决方案,并不断优化提升。正是这套解决方案,实现了防止能预见的问题,快速恢复不能预防的问题,不再重复已发生的问题,保证阿里的客户能够拥有流畅的服务体验。


image
图为阿里巴基础设施事业群全球运行指挥中心(GOC)负责人沈乘黄分享《阿里经济体业务连续性解决方案》

业界领先,斩获殊荣

集团的技术人集体为阿里业务连续性付出了巨大而卓有成效的努力,大家在业务连续性建设的探索中遇到的问题以及解决办法,对每种技术深入研究过程中积累的经验,基于对技术深入理解的基础之上进行调优和定制的实践成为了最宝贵的财富。来自阿里经济体这一整套业界领先的业务连续性解决方案,保证了业务可用性长期稳定在99.99%。这一成果获得了DRII的一致认可,并最终斩获“年度最佳BCM创新实践奖”。


image


阿里稳定运行背后的保障团队

来自基础设施事业群的全球运行指挥中心(Global Operations Center,GOC)是默默保障阿里经济体业务稳定运行的代表,肩负着生产系统全局性应急决策与指挥的职责。该组织通过为电商、金融、阿里云等各项业务提供及时准确的告警、生产环境故障的全生命周期管理、重大故障时的快速切换以及线上问题的升级支持,在缩短系统灾难时长和提升消费者体验等方面做出了显著的贡献。

一直以来,GOC从预防、快速恢复到复盘检验等环节全面推进阿里经济体内业务连续性建设。

首先,GOC持续推动系统的容灾和快速恢复的建设,确保各个机房都有同城或者异地容灾的方案,并通过日常演练来检验集群的容灾能力。同时,经由与各个业务部门的密切合作,GOC把各核心系统在极端情况下快速逃生的开关接入统一的平台,真正实现了快速恢复。其次,在业务流量发生波动时,通过自建的嵌入深度学习模型的智能基线系统,GOC能第一时间发现故障并判断处理方式。如果该故障需要人工介入,则会迅速通知相关开发人员上线处理,并实时跟踪进展。在故障处理完毕后,GOC会与业务团队一起进行深度复盘,制定明确的改进措施,并通过模拟故障来检验系统是否已经具备了对类似的问题的免疫能力。通过这一完整的业务连续性体系,阿里的生产系统真正地实现了在灾难发生时五分钟发现、十分钟恢复。

经过长期的技术积累,今天的GOC已经拥有了从故障管理平台(OPM)、应急响应平台(OER)、容灾演练平台(ODE)、变更管理平台(OCM)到运行分析平台(ODA)的完整的业务连续性系统,打造出了一整套业界领先的业务连续性建设解决方案。他们秉持着技术驱动的信念,以自动化和智能化为抓手,为了“无人值守的生产系统”的目标而锐意创新!

随着中国近年经济的高速发展,中国企业在亚洲乃至全世界的影响力也在迅速扩大。今年又恰逢一带一路峰会的召开,中国企业在迎来宝贵发展良机的同时,也将面临新的挑战。业务连续性管理作为企业发展保驾护航的重要手段势必得到更高的重视和更广泛的应用。今年 DRI 不失时机地选择再次在北京召开业务连续性管理亚洲盛会,旨在为中国各行各业的业务连续性管理专业人士提供一个借鉴国际成功经验、交流中国实践的机会,研究适合中国国情的有效的业务连续性管理方法,开拓业务连续性管理及灾难恢复应用市场的平台。

来源:阿里技术
原文链接

相关文章
|
人工智能
掌握写歌词的技巧和方法,轻松踏上创作之路,妙笔生词AI智能写歌词软件
写歌词是充满魅力与挑战的创作活动。掌握灵感捕捉、主题明确、结构合理和语言生动等关键技巧至关重要。《妙笔生词智能写歌词软件》提供 AI 智能写词、押韵优化、歌词分析等功能,助你轻松创作出优秀的歌词作品,实现音乐梦想。
|
运维 监控 双11
起底:“问题终结者”GOC的真实战力
在阿里巴巴隐藏着很多神秘的部门,GOC就是其中之一,你在互联网甚至搜不到关于它的一丁点儿信息。但就是这么一个“名不见经传”的部门,却“指挥”着阿里巴巴旗下几乎所有业务的运行情况。
9851 0
|
Web App开发 JavaScript 前端开发
捕获未处理的Promise错误
译者按: 通过监听unhandledrejection事件,可以捕获未处理的Promise错误。 原文: Tracking unhandled rejected Promises 译者: Fundebug 为了保证可读性,本文采用意译而非直译,并且对源代码进行了大量修改。
1663 0
|
14天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
11523 126
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
3天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
3793 8
|
2天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
1376 3
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
14天前
|
人工智能 IDE API
2026年国内 Codex 安装教程和使用教程:GPT-5.4 完整指南
Codex已进化为AI编程智能体,不仅能补全代码,更能理解项目、自动重构、执行任务。本文详解国内安装、GPT-5.4接入、cc-switch中转配置及实战开发流程,助你从零掌握“描述需求→AI实现”的新一代工程范式。(239字)
7699 139
|
4天前
|
人工智能 自然语言处理 数据挖掘
零基础30分钟搞定 Claude Code,这一步90%的人直接跳过了
本文直击Claude Code使用痛点,提供零基础30分钟上手指南:强调必须配置“工作上下文”(about-me.md+anti-ai-style.md)、采用Cowork/Code模式、建立标准文件结构、用提问式提示词驱动AI理解→规划→执行。附可复制模板与真实项目启动法,助你将Claude从聊天工具升级为高效执行系统。
|
3天前
|
云安全 供应链 安全
Axios投毒事件:阿里云安全复盘分析与关键防护建议
阿里云云安全中心和云防火墙第一时间响应
1156 0