开发者社区 > 弹性计算 > 云服务器ECS > 正文

故障演练的步骤是什么?

已解决

故障演练的步骤是什么?

展开
收起
詹姆斯邦德00 2022-09-21 15:29:28 599 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    第一步:故障演练的理念是尽量增加系统雪崩和不稳定事件,而这与开发人员日常的理念是冲突的。因此,首先要让大家接受故障演练,由专业的演练小组安排固定的演练时间以及清晰的演练安排,拉齐所有业务参加。

    第二步:日常演练组织。日常演练组织中事件的选择原则为频发问题优先、风险由低到高。其次,先在低风险环境中试水,在隔离环境确认影响,在低风险环境中进行破坏性实验和大型故障模拟,比如影响完全不可控的故障需要在低风险环境中进行,较为稳定的case 或可以确认影响的case 方可进行线上环境演练。线上环境演练时,一般需遵循发现-定位-恢复流程。

    第三步:突袭。突袭有红蓝军演练和一键演练。其中红蓝军演练较为保守,会在演练小组里抽取一部分对演练case 比较熟悉的人员,作为红军参与故障演练,不定期在系统中注入问题;其他所有业务人员为蓝军,负责验证问题的发现-定位-恢复时间。一键演练是较为激进的方式,通常由业务领导角色直接注入故障,演练所有业务人员的故障处理流程。成熟度非常高的系统方可实现一键演练的目标。

    第四步:总结和改进。总结和改进是混沌工程中故障演练和压测的最终目标。通过故障演练和压测确定系统极限,包括系统水位极限、运维响应极限、问题发现极限以及系统恢复极限,明确系统表现、问题处理流程;记录不可用节点以及性能瓶颈,最后将不可用节点抽取为改进目标项,责任到人做系统稳定性改进。

    以上内容摘自《云上自动化运维CloudOps系列沙龙演讲合集》电子书,点击https://developer.aliyun.com/ebook/download/7730可下载完成版

    2022-09-21 16:28:52
    赞同 展开评论 打赏
问答分类:

云服务器ECS是一种安全可靠、弹性可伸缩的IaaS级云计算服务。在这里你可以获取最新的ECS产品资讯、最前沿的技术交流以及优惠活动等信息,加速自己的技术成长。

相关电子书

更多
阿里电商故障治理和故障演练实践 立即下载
高可用数据库的搭建与备份恢复策略验证实战 立即下载
通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力 立即下载