《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(1) https://developer.aliyun.com/article/1229854?groupCode=supportservice
3)演练操作手册
演练操作手册是针对上述容灾演练的场景,分别描述完整操作步骤的文档。一次容灾演练,相当于一次生产环境的变更操作,在遵循生产变更三板斧(可监控、可灰度、可应急)的前提下,还需要具备易操作的要求。
图 3-11 容灾演练手册的编写原则
基于上述理念,一份高质量的容灾切换操作手册及其配套手册,应满足如下要求:
完整的保障人员清单及联系方式。一个面面俱到的监控系统,是需要长期来完善的。在很多项目中,监控系统是可能存在观察盲区的。因此需要根据应用系统上下游的依赖关系,明确保障人员的信息,作为监控系统的有效补充。
详细的巡检步骤。在容灾演练开始前,需要通过巡检工具或人工巡检,对应用系统及其依赖关系,进行健康度检查,来提升容灾切换的成功率。
关键的测试用例。生产环境的一次容灾演练,通常发生在凌晨的有限时间内。此时很多业务在夜间无流量或流量较少,难以在限定的时间内验证灾备中心的业务系统是否完全正常。因此当完成容灾切换后,需要自动化或人工验证关键的测试用例。
清晰准确的执行步骤。理想的状态,是不强依赖操作人员的经验、图文结合、无歧义、自动化和白屏化。在一些大型的项目中,由于应用系统的依赖关系非常复杂,每一部分依赖关系都有专业化的分工。因此,一个合理的做法,是在操作手册中注明每个环节的负责团队,整合或链接至对应团队的操作手册文档。
场景化的步骤。根据上一节中的容灾场景分类,以场景为目录分类的依据,分别描述操作步骤。
可行的应急预案。当容灾切换过程中发生异常,或容灾切换后业务效果不达预期时,有提前准备好的应急预案,用于止血和恢复正常。应急预案应包括已知风险的技术手段和未知风险的技术手段及关键联系人清单。
《云上容灾交付服务白皮书》——3交付标准化参考框架——3.4演练方案设计(3) https://developer.aliyun.com/article/1229852?groupCode=supportservice