《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.4 冬奥重保--稳定性专项

简介: 《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.4 冬奥重保--稳定性专项

6.2.4 冬奥重保--稳定性专项


在赛前,我们成立了稳定性专项,对阿里云各产品包括库存水位、高可用风险、产品侧应急预案等等都进行了专项梳理。通过系统化的稳定性排查项来规避产品侧的部分风险。

以ECS为例,本次冬奥会北京奥组委、奥林匹克国际官网、奥林匹克频道OCS、奥林匹克广播服务公司OBS等奥运核心系统全面上云,神龙ECS是冬奥系统运行的核心底座,其稳定性直接关系着冬奥系统的稳定运行,可以说牵一发动全身。为给北京冬奥提供极致的ECS稳定性体验,ECS数据稳定性团队和技术中台团队紧密合作,共同制定北京冬奥重保方案,包括重保风险识别、风险预防、风险消除、重保告警信息推送、变更风险管控、应急预案验证等。包括以下手段:

共享型实例识别并消除性能争抢风险

实例宿主机聚合度较高的情况进行合理热迁移打散

库存进行腾挪及资源预留

变更风险管控

底层宿主机风险巡检并评估规避

禁止资源腾挪热迁移以及告警发送更新

rlock资源评估

在评估奥组委ECS库存资源时,我们发现北京政务云部分ECS实例规格存在库存不足情况,可能不足以满足赛事过程中的升配需求。为了更好的保障冬奥会顺利进行,应对非预期的扩容需求,我们决定对北京政务云机房进行腾挪扩容并做资源预留。同时也考虑到SPOT实例售卖可能影响公有云上冬奥客户扩容,对客户所在地域的SPOT水位进行了检查并做合理水位调整,尽力保障客户有扩容空间。

云网络方面,我们在稳定性单点风险梳理过程中发现Live Cloud系统存在单专线风险,如发生异常将直接影响赛事转播。若阿里云侧对应CSW设备出现故障,恢复SLA将是12小时。在确认运营商无法提供冗余线路的情况下,云网络与物理网络团队积极设计阿里云侧的异常处置机制并分别提供了完整方案。基于客户风险考虑,最终选择了物理网络同机架备份CSW设备的方案,虽然成本提高了,但是可把恢复时间控制在一小时以内。

数据库方面,针对宿主机、资源维度、实例维度以及管控任务维度进行体系化稳定性检查。

1684908301017.png


相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
云安全 弹性计算 监控
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.5 冬奥重保--赛时每日巡检
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.5 冬奥重保--赛时每日巡检
114 0
|
弹性计算 负载均衡 监控
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(1)
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(1)
109 0
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(2)
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(2)
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(3)
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(3)
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.6 冬奥重保—变更管控
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.6 冬奥重保—变更管控
|
容灾 安全 容器
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.1 核心系统上云架构--稳定性治理实践
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.1 核心系统上云架构--稳定性治理实践
|
容灾
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.2.1赛事直播场景
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.2.1赛事直播场景
102 0
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.3 稳定性巡检总结
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.3 稳定性巡检总结
|
机器学习/深度学习 运维 监控
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.2 智能风险管控工具--Aspara ServiceStack-CloudDoc
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.2 智能风险管控工具--Aspara ServiceStack-CloudDoc
142 0
|
监控 安全 API
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2)
186 0