《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.4 故障复盘

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.4 故障复盘

3.3.4 故障复盘


企业基本每天都会面临新服务或新系统的上线和迭代。线上故障和事件在当前的业务架构规模和发展速度上是不可避免的。当故障发生后,如果不及时、深刻地去对故障的根因和处理过程进行分析改进,很难保证下次类似的问题不会出现甚至扩大化,所以故障复盘对业务稳定性建设非常重要。集团复盘遵循以下标准流程:


image.png


过程回溯:可使用5-why方法提出多个问题对处理过程进行深挖。如本次故障

为什么会发生?为什么没有提前发现?过程中各个团队是如何处理的?处理过程是否有可以优化的空间?


•问题剖析:回溯完成过程之后,需要深层次剖析:是否流程机制层面问题?是否质量检验层面问题?是否产品业务层面问题?是否系统设计层面问题?有没有更好的防御机制?如何避免再次发生?


•经验总结:剖析出来深层次原因之后,需要切实给出可落地的Action:包括给出短期治标Action,长期治本Action,以及沉淀经验和教训。


•定级定责:完成原因和改进方案后,针对本次故障做最终的等级认可和故障责任划分。责任团队分为主要责任团队和次要责任团队,以及测试责任团队。


复盘文档一般包含以下内容:故障简述(故障概述、影响面、处理人等)、故障背景(业务链路)、故障时间线(着重强调【故障引入】【故障发生】【故障发现】【业务响应】【恢复执行】【故障恢复】几个时间点)、故障原因分析(建议先一句话总结,再进行具体原因剖析)、故障过程分析(可从需求评估、代码发布、故障应急等环节进行分析)、后续改进、故障等级/责任。

相关文章
|
运维 监控 Java
研发规范第十三讲:阿里 - 如何进行项目稳定性建设
研发规范第十三讲:阿里 - 如何进行项目稳定性建设
935 1
|
11月前
|
运维 监控 网络协议
面对全球化的泼天流量,出海企业观测多地域网络质量
网络监控与分析在保证网络可靠性、优化用户体验和提升运营效率方面发挥着不可或缺的作用,对于出海企业应对复杂的网络环境和满足用户需求具有重要意义,为出海企业顺利承接泼天流量保驾护航。
512 228
|
云安全 存储 数据采集
带你读《阿里云安全白皮书》(二)—— 数智化趋势下的安全挑战
本文探讨了数智化发展带来的安全隐患与挑战,强调信息系统安全性对经济社会稳定的重要性。涉及政府管理、金融服务、关键基础设施等领域,指出数据安全问题日益突出,需加强数据治理和安全防护,确保数字经济的健康发展。点击链接下载完整版《阿里云安全白皮书(2024版)》。
|
存储 运维 Prometheus
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
425 0
|
Linux Perl
Linux 6种日志查看方法,不会看日志会被鄙视的
Linux 6种日志查看方法,不会看日志会被鄙视的
|
UED
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
2193 0
|
运维 监控 测试技术
故障治理:如何进行故障复盘
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。
|
算法 BI
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
606 0
|
运维 监控
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急
556 0
|
运维
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.2 故障
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.2 故障
253 0