《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.1 变更标准流程规范

简介: 《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.1 变更标准流程规范

四、变更管控体系

变更是指对线上系统的任何操作(如:发布、增加、修改或移除等),或其他对生产业务可能有影响的任何操作。基于历史经验,有一半以上的重大故障皆为变更触,因此,变更过程的风险防御显得尤为重要,会直接关乎业务的稳定性。公共云的变更可分为阿里云侧的产品发布变更以及客户侧的运维类变更。阿里云对变更有一套完善严格的管控、通知体系,尽可能地降低相关风险。而针对公共云客户发起的运维类变更,我们也希望能通过标准的流程规范参考,来增强变更执行人员的风险意识和操作习惯;同时也希望通过阿里云TAM的技术服务能力,在变更过程中协助提前拦截风险,提供辅助客户安全变更的能力。同时客户可参考规范逐步建立标准化的变更规范,最终再通过技术能力实现自动化的变更管控。

4.1 变更标准流程规范


变更发布标准流程参考示意图:

image.png

变更过程可分为:计划、执行、结束三个部分,其中:


计划阶段:该阶段主要包含变更申请,以及申请的准入审批。变更申请需要明确变更计划、窗口期、潜在影响以及回滚方案,具体见后文准入章节。生产环境云资源的运维变更建议客户至少提前一个工作日同步至TAM,以便有充分时间评估风险并协调资源进行护航保障。阿里云侧公共云变更都会由各产品侧发起对客户进行通知,根据影响程度会有不同的通知渠道和提前日期的要求。一般会提前7天进行第一次通知。通知渠道包括官网公告、短信、邮件、站内信、电话、企业钉群推送以及TAM的点对点通知。


执行阶段:首先对变更行为进行二次校验,如确定变更环境是否满足要求,业务流量已按预期停止等。变更过程建议先在测试环境验证后,再进入生产环境变更阶段,同时灰度、分批进行。每批次间设定一定间隔时间,并进行观察记录至少一项可反应核心业务健康状态的指标(业务监控项、日志文件名等),同时须具备回滚能力。


结束阶段:通过监控、日志等数据验证业务是否正常,并记录上报相关数据。

image.png

image.png

相关文章
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
Java 存储 jvm-sandbox
海量流量下,淘宝如何进行稳定的流量回放?
随着业务的不断发展, 整个淘系的服务端已经有数千个应用,在淘宝已经有非常大的应用数量和变更次数的基础上, 对流量回放也有更高的要求。那么在不断尝试流量的录制与回放的过程中,我们遇到了什么问题?那么在不断尝试的过程中,我们遇到了什么问题?我们由从中得到了什么启示?流量录制回放又能给我们带来多少收益?
10588 1
|
存储 SQL 缓存
Hadoop入门(一篇就够了)
Hadoop入门(一篇就够了)
31555 4
Hadoop入门(一篇就够了)
|
11月前
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
运维 监控 Java
(十)JVM成神路之线上故障排查、性能监控工具分析及各线上问题排错实战
经过前述九章的JVM知识学习后,咱们对于JVM的整体知识体系已经有了全面的认知。但前面的章节中,更多的是停留在理论上进行阐述,而本章节中则更多的会分析JVM的实战操作。
503 1
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
API 开发者
通义灵码实践场景与效果分享
作为后端开发工程师,我利用通义灵码结合企业知识库和代码库,生成符合团队规范的代码,效率提升约40%。灵码支持实时智能补全、代码质量提升及文档自动生成,简化了开发流程,减少了重复工作,显著提升了团队的开发效率和代码质量。
|
负载均衡 容灾 网络协议
《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(上)
《云上容灾交付服务白皮书》——2.容灾技术架构——21容灾技术架构简介(上)
881 0
|
Cloud Native 关系型数据库 MySQL
Centos7安装Mysql5.7(超详细版)
*下载地址:[https://dev.mysql.com/downloads/mysql/5.7.html](https://dev.mysql.com/downloads/mysql/5.7.html)**
7671 3
Centos7安装Mysql5.7(超详细版)
|
存储 运维 Prometheus
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
425 0