一、 概述
混合云容灾服务(HDR)是阿里云提供的低成本高性能业务连续性保障的服务,可以为企业内部关键应用,互联网应用,乃至Hadoop大数据集群提供容灾服务。
其中的连续复制型(CDR)基于磁盘数据连续复制技术,可以为企业关键业务提供低至秒级RPO,分钟级RTO的容灾服务,极大缩短业务宕机时间,减少数据丢失损失。其一键演练,全链路监控,自动化运维等功能更是解决了传统容灾服务操作难,验证难,维护难的问题,极大提高了容灾系统的可用性,释放了容灾系统的价值。
CDR近期推出了针对阿里云上环境的跨地域和跨可用区容灾方案,可以为云上应用的业务连续性,等保合规要求等提供保障。本操作指南介绍的是一个典型的阿里云上应用跨地域整站异地容灾场景的操作方法。
二、 场景介绍
某客户已经在阿里云上杭州地域通过双AZ部署应用,做到了多可用区双活,因为业务连续指标以及合规要求,需要在异地做应用容灾。核心要求是
- 生产在杭州地域,要求容灾地域物理距离大,选择北京地域
- 5分钟以内RPO,15分钟以内RTO。
- 整站容灾,所有服务器在异地拉起后IP不变,避免应用配置过多修改,影响RTO
- 一键演练,运维人员需要每3个月在不影响生产环境的情况下,做一次操作演练
容灾架构概略图如下
- 全站的ECS服务器通过HDR-CDR实现秒级RPO的容灾复制
- RDS数据库基于RDS跨地域复制实现数据库异地容灾
- 北京地域VPC网络配置保持与杭州地域一致 (仅多加一个vSwitch用于接收复制数据),北京地域容灾站点所有ECS仅运行复影最小规格复影ECS,只有在容灾演练和故障切换时按需拉起全规格ECS,接管业务
- 整体容灾演练,切换,回切操作都有HDR容灾控制台来操作
本文将介绍整个容灾操作的全流程,主要包括以下内容。整体环境做了较大简化(简化应用,未包含RDS),便于关注操作流程
- 环境准备
- 启动容灾复制
- 容灾演练
- 故障切换
- 故障恢复
三、 环境准备
生产站点(杭州地域)
- 我们创建VPC(官网服务VPC),以及网段为192.168.1.0/24的虚拟交换机(生产vSwitch)
- 在它的虚拟交换机(生产vSwitch)下面部署了3台ECS。1台windows ECS-IISSvr,2台Centos 分别为:oraclesvr,midwaresvr。(ECS的数量,规格,数据盘,操作系统等配置等都可以按照实际情况自行决定,注意操作系统仅可选择支持列表中的类型。)
容灾站点 (北京地域)
为了实现跨地域整站容灾,需要在另一个地域创建一个一致的VPC,我们选择在北京地域。
- 创建好VPC,以及2个虚拟交换机,容灾切换虚拟机(容灾切换vSwitch)和容灾复制虚拟机(容灾复制VSwitch)
注意,这里的容灾切换虚拟机(容灾切换vSwitch)需要与杭州地域的虚拟交换机(生产vSwitch)一样网段的虚拟交换机192.168.1.0。这个虚拟交换机用于在容灾演练和容灾切换时,用原始IP拉起ECS。容灾复制虚拟机(容灾复制VSwitch)用于在平时容灾复制是从源端接收数据,创建为192.168.2.0网段。
另外,因为做容灾复制和容灾切换时,都需要确保有ECS库存,我们建议在靠后的可用区,如G区等。
四、 启动容灾复制
1. 登录混合云容灾控制台,创建容灾站点对
进入混合云容灾控制台,创建连续复制型容灾站点对,选择区域容灾到区域场景。在这里我们选取杭州的官网服务VPC作为主站,北京的容灾VPC作为从站(如下图)。
2.注册ECS
进入容灾站点对,点击受保护服务器页签,点击添加按钮,选择要保护的ECS。
添加ECS后,连续复制Agent就会被自动安装到指定的ECS中。CentOS服务器会变成以初始化的状态,而Windows服务器比较特殊,控制台会提示您请重启的信息,您手动重启后,Windows服务器会变成以初始化的状态。
3. 启动复制
注册完成后,点击启动复制,从更多-故障切换-启动复制入口进。
在启动复制设置页面,在恢复点策略这里选择打快照的频率,我们会对这些恢复点保留一个月的历史数据,便于快速恢复到历史时间点。在复制网络选择容灾复制VSwitch,在恢复网络选择容灾切换vSwitch。
启动复制后可以通过任务列表页签查看进度。复制分为两阶段,全量复制和实时复制两阶段,全量复制即初始整机全量复制,实时复制是指全量复制已经完成,所有实时IO正在被立即复制到容灾端。
当服务器处于实时复制中阶段,可以通过右侧的查看复制信息,RPO等。
点击复制信息,可以查看复制网络等信息。RPO则表示该时间段内的数据延迟。
4. 容灾演练
等服务器处于实时复制状态时,您就可以进行容灾演练。容灾演练是指在不影响容灾复制的情况下,验证应用是否可以在容灾站点拉起起并正常工作,是一个按预定计划进行的操作(可能几个月一次)的操作。初次容灾演练因需要在目标端打出初始快照,可能耗时较长。点击容灾演练即可开始演练。您可以更改实例名称,实例规格(CPU,内存),选择从站下不同虚拟机网络,3种IP设置(我们这里选择保留当前IP,对于整站容灾,保留原IP将使得某些配置大大简化),是否使用SSD,选择历史恢复点或当前时间点,是否绑定弹性公网IP,以及添加切换后执行脚本(比如用户的环境对RDS有依赖。做容灾时,RDS复制由RDS系统解决,那么在目标站需要修改配置时,可以用脚本自动解决)。
容灾演练成功,可以通过链接点击进去查看拉起的ECS配置,通过远程连接查看ECS内容。结束后,需要清空演练环境。
5. 故障切换
当生产端发生宕机故障,您就需要做故障切换操作,来将业务切换到容灾站点。
注意,点击故障切换后,容灾复制将停止。在非故障情况下,请使用容灾演练在验证容灾系统可用性
故障切换入口:更多-故障切换-故障切换。
故障切换的设置同容灾演练设置一样,不过因窗口大小的原因,切换后执行脚本这一项设置为现出。
故障切换完成,可以通过链接进入查看拉起的ECS配置以及内容,如果不是你需要的,可以通过切换恢复点,重新更改配置。切换恢复点入口:更多-故障切换-切换恢复点。
注意,故障切换也允许您切换恢复点,以便恢复到历史时间点
故障切换完成,通过链接确认是你需要的ECS,需要确认故障切换。入口:更多-故障切换-确认故障切换。
七、 反向复制与故障恢复
在故障切换后,容灾站点会承载生产业务。一般情况下,您需要在一定时间内,将业务切回生产站点。但此时容灾端已经产生了心的业务数据,您就需要将容灾站点的ECS反向复制回到生产站点
1、 ECS反向注册
在北京地域拉起的ECS需要反向注册,入口:更多-故障恢复-反向注册。
反向注册后,服务器的状态会变成已反向初始化。
2、启动反向复制
注册完成后点击启动反向复制(可以选择原机恢复恢复至初始ECS)。入口:更多-故障恢复-启动反向复制。启动反向复制设置,可以选择主站杭州地域的虚拟交换机作为复制网络和恢复网络。注意,这里的复制网络和恢复网络必须选用同一可用区。
同时还可以选择原机恢复,如下图所示。点击原机恢复,要注意,启动反向复制后,原机ECS内容会被清除,变成shadow vm。
反向复制也包括两阶段,全量复制,增量复制即反向实时复制中阶段。
3、故障恢复
当服务器处于实时复制中阶段,就可以进行故障恢复。故障恢复入口:更多-故障恢复-故障恢复。点击故障恢复后,可以更改实例名称,查看相关信息,添加恢复后执行脚本。
故障恢复完成,可以通过链接进入查看相关配置,内容等,到此一个循环结束。之后可以进行注销该服务器,或者注册故障恢复的ECS。注销入口:更多-服务器操作-注销 ,注册入口:更多-故障切换-注册。