第一步:故障演练的理念是尽量增加系统雪崩和不稳定事件,而这与开发人员日常的理念是冲突的。因此,首先要让大家接受故障演练,由专业的演练小组安排固定的演练时间以及清晰的演练安排,拉齐所有业务参加。
第二步:日常演练组织。日常演练组织中事件的选择原则为频发问题优先、风险由低到高。其次,先在低风险环境中试水,在隔离环境确认影响,在低风险环境中进行破坏性实验和大型故障模拟,比如影响完全不可控的故障需要在低风险环境中进行,较为稳定的case 或可以确认影响的case 方可进行线上环境演练。线上环境演练时,一般需遵循发现-定位-恢复流程。
第三步:突袭。突袭有红蓝军演练和一键演练。其中红蓝军演练较为保守,会在演练小组里抽取一部分对演练case 比较熟悉的人员,作为红军参与故障演练,不定期在系统中注入问题;其他所有业务人员为蓝军,负责验证问题的发现-定位-恢复时间。一键演练是较为激进的方式,通常由业务领导角色直接注入故障,演练所有业务人员的故障处理流程。成熟度非常高的系统方可实现一键演练的目标。
第四步:总结和改进。总结和改进是混沌工程中故障演练和压测的最终目标。通过故障演练和压测确定系统极限,包括系统水位极限、运维响应极限、问题发现极限以及系统恢复极限,明确系统表现、问题处理流程;记录不可用节点以及性能瓶颈,最后将不可用节点抽取为改进目标项,责任到人做系统稳定性改进。
以上内容摘自《云上自动化运维CloudOps系列沙龙演讲合集》电子书,点击https://developer.aliyun.com/ebook/download/7730可下载完成版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。