备案控制台

开发者社区弹性计算云服务器ECS 正文

故障演练的步骤是什么？

已解决

故障演练的步骤是什么？

展开

收起

詹姆斯邦德00 2022-09-21 15:29:28 689 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

胡嘞嘞

推荐回答

第一步：故障演练的理念是尽量增加系统雪崩和不稳定事件，而这与开发人员日常的理念是冲突的。因此，首先要让大家接受故障演练，由专业的演练小组安排固定的演练时间以及清晰的演练安排，拉齐所有业务参加。

第二步：日常演练组织。日常演练组织中事件的选择原则为频发问题优先、风险由低到高。其次，先在低风险环境中试水，在隔离环境确认影响，在低风险环境中进行破坏性实验和大型故障模拟，比如影响完全不可控的故障需要在低风险环境中进行，较为稳定的case 或可以确认影响的case 方可进行线上环境演练。线上环境演练时，一般需遵循发现-定位-恢复流程。

第三步：突袭。突袭有红蓝军演练和一键演练。其中红蓝军演练较为保守，会在演练小组里抽取一部分对演练case 比较熟悉的人员，作为红军参与故障演练，不定期在系统中注入问题；其他所有业务人员为蓝军，负责验证问题的发现-定位-恢复时间。一键演练是较为激进的方式，通常由业务领导角色直接注入故障，演练所有业务人员的故障处理流程。成熟度非常高的系统方可实现一键演练的目标。

第四步：总结和改进。总结和改进是混沌工程中故障演练和压测的最终目标。通过故障演练和压测确定系统极限，包括系统水位极限、运维响应极限、问题发现极限以及系统恢复极限，明确系统表现、问题处理流程；记录不可用节点以及性能瓶颈，最后将不可用节点抽取为改进目标项，责任到人做系统稳定性改进。

以上内容摘自《云上自动化运维CloudOps系列沙龙演讲合集》电子书，点击https://developer.aliyun.com/ebook/download/7730可下载完成版

2022-09-21 16:28:52

赞同展开评论

问答分类：

云服务器 ECS

问答地址：

开发者社区 > 弹性计算 > 云服务器ECS > 问答

相关问答

云服务器 ECS

购买阿里国外的云服务器是否可以访问谷歌？

83845

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3796

1

0

重启Docker后报错：Error response from daemon

2358

0

0

this xml file does not appear to have any style in

51948

10

0

sql server的用户名和密码怎么查啊？

37558

21

0

LoRa的网络覆盖能力范围是怎么样的？

3232

1

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60972

32

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3703

1

0

OSS的endpoint如何查看

37534

6

0

阿里云服务器如何重置系统？

24761

4

0

弹性计算

云服务器ECS

云服务器ECS是一种安全可靠、弹性可伸缩的IaaS级云计算服务。在这里你可以获取最新的ECS产品资讯、最前沿的技术交流以及优惠活动等信息，加速自己的技术成长。

我要提问

收录在圈子:

云服务器ECS

418312

+ 订阅

相关文章

阿里云服务器收费标准_云服务器ECS价格表_轻量优惠活动

阿里云 8 核 16G 云服务器 ECS 租赁价格收费标准及 CPU 型号详解参考

阿里云云服务器ECS是什么？云服务器ECS购买、优势、使用方式和部署问题详解

阿里云服务器租用价格：轻量应用服务器、云服务器ECS、gpu云服务器收费标准与活动价格参考

小白看懂：阿里云服务器ECS是什么？云服务器ECS优势及特性整理

热门讨论

热门文章

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

为一个互联网初创企业的技术负责人，小 A 在早期选择了阿里云的云服务器 ECS 并将 Java 应用

发送excel文件，在钉钉上打开报错误。OfficeImportErrorDomain错误912

阿里云的海外服务器怎么购买

网站不能使用中国移动的4g流量访问，但使用wifi就可以正常访问，电信的流量也可以打开，请问怎么解决

99计划中的ECS经济型e实例，首年99元，第二年多少呢？

后端接口异常怎么办

ECS 经济型e实例99计划是什么？

无法通过公网IP访问Web网页

钉钉登录页面网页自动跳转，显示对不起，你无权限查看该页面，需要使用钉钉账号登录才可以进行授权。

展开全部

玩转ECS云盘 — 按量付费升级到包年包月云盘

ECS 支持 IPv6 啦，快来尝鲜吧~

ECS 8080端口连接拒绝问题排查

使用OpenApi弹性管理云服务器ECS

ECS 实例 “预付费” 能转换为 “按量付费”啦

ECS 按量付费转包年包月支持按周啦

当我们在聊Serverless时你应该知道这些

让 ESS 更灵活的新特性：UserData & KeyPair & RamRole & Tags

ECS 按量付费VPC实例停机不收费FAQ

统一预付费ECS资源到期日

展开全部

还有其他疑问?