如何利用阿里云实现高效低成本灾备演练?

简介: 如何利用阿里云实现高效低成本灾备演练?

灾备演练的现状

业务系统容灾到其他灾备中心后怎么才能知道容灾系统的RPO、RTO是否达标由于硬件设施迭代业务系统也必须跟着升级怎么才能确保系统升级后高可用为了验证这些问题企业会定期进行个性化的灾备演练。

灾备演练是通过模拟一套与真实灾备系统类似的模拟环境,进行灾备业务的恢复、接管等操作,以此来检验灾备系统的有效性。所以,灾难场景不同、灾备业务复杂度不同,那么演练的技术过程与周期也不相同。

常见的容灾演练方式有以下三种方式:

1、桌面演练

最基础的容灾演练方式。桌面演练也叫“沙盘推演”,通过对初始灾难恢复预案的一个理论验证,进而测试应急响应预案和灾难恢复体系的完整性和有效性,使相关人员了解应急响应及业务恢复流程,全面验证技术及业务管理指挥、流程操作、协调配合等方面的综合能力。

2、模拟演练

模拟演练的过程高度接近真实灾难发生时的处理过程。演练以桌面演练结果为基础,由IT部门协调其他相关业务部门参加模拟演练,采用模拟数据和模拟业务系统进行演练。通过演练可以检验容灾系统的可用性、灾难恢复预案的可行性以及增加参演人员对灾难处理过程的感知度与配合的默契度。

3、实战演练

实战演练是容灾演练的最高的阶段。其场景最为真实,更易于发现潜在问题并进一步优化容灾系统,但随之而来的就是演练成本的提高。因此,在实战演练中,也会存在很多挑战,这时,关键是使其理解并支持演练能够周期性地进行,同时发现问题及时改进才是成功的演练,应避免流于形式的表演。

 

无论是哪种方式的灾备演练都要考虑到技术人员调度容灾资源消耗业务停机时间等问题可以看出等级越高的灾备演练方式成本也越高效果和成本似乎是不可兼得。实际未必,随着云计算的普及,相于传统的物理环境,云容灾的成本优势更为明显,云容灾演练的成本也随着下降

云容灾降低容灾整体成本

现在在云计算市场逐步扩大的背景下,云容灾成为新的选择。

传统运维业务系统复杂,需要大量的专业运维人员。而云上资源的可编排性以及自助化的容灾使用体验,降低了对人员技术能力要求,直接降低了灾备演练的复杂度。

云容灾不仅降低了初期成本投入,而且在容灾过程中,合理的使用云原生特性,能够大幅度降低用于容灾的云资源成本。在日常容灾过程中,用户只需要为存储资源买单,在演练时则按量付费,大幅度降低了演练消耗的资源成本。

但是在云容灾演练时是否还是需要在云侧和源端一样1:1配备云计算资源如果是那显然这还不是最经济的手段。

HyperBDR云容灾提高容灾演练效率,优化演练成本

推荐用万博智云的HyperBDR云容灾工具低成本任意次数实现灾备演练

 

HyperBDR提高了容灾演练的效率和容错率通过创建少量云存储网关来进行数据同步再生成任意数量时间点快照实现全量增量备份容灾演练时即使恢复主机失败,也不需要全量数据重新恢复,只需要根据验证情况完善系统信息,再选择恢复增量数据即可。

 

为了降低云资源消耗以便降低容灾接管和演练的成本,HyperBDR在容灾思路上有一个革新。使用HyperBDR云容灾工具构建灾备方案平时只需要为数据备份消耗的云硬盘付费要在云端1:1预启动实例,只在恢复业务才需要启动ECS因此每一次灾备演练都可以节省下可观的成本

 

3.1HyperBDR云容灾的核心优势

目前,HyperBDR云容灾已完成20+朵云的自动化API对接这就意味着,HyperBDR打通了异构平台的壁垒实现了数据在云之间的流转对于企业来说可以根据自身情况自由地选择容灾到哪个云平台不再受IT资源架构差异的限制

HyperBDR采用的Boot in cloud技术可以在发生灾难时一键拉起业务,保障核心业务连续性并且无需云端1:1预启动实例,只需要在恢复时启动ECS减少了云资源的消耗大幅度降低了成本

 

3.2HyperBDR云容灾整体架构

万博智云HyperBDR容灾软件通过调用云平台自身提供的原生API接口,以及通过调度源端Agent、或Agentless无代理方式(视不同源端环境)来捕获全量、差异数据,通过点到点加密网络传输至目标云侧「云存储网关」,本地没有数据留存,安全高效。

 

3.3阿里云上灾备演练具体实现

这里以10VMware虚拟机,两套业务系统容灾至阿里云为例

基础条件

(1)需要容灾的主机:10

(2)根据主机数量1:1购买license:10

(3)有阿里云资源,有阿里平台的管理权限。

 

3.3.1 配置生产平台 (VMware)

第一步:点击菜单栏 生产平台设置,点击 VMware 选择框。

第二步:点击 +添加 按钮,安装源端hamal无代理组件的安装部署;

首次添加VMware需要安装hamal组件。

第三步:按照界面指引安装hamal。

第四步:弹框中填写相关信息

图片1.png

完成配置vCenter/ESXI 被成功加入到容灾生产平台中,重复以上步骤可以添加多个vCenter(按需)。

完成生产平台VMware配置,可进行添加容灾主机。

左侧菜单选择 资源容灾 -> 主机容灾 之后,右侧点击 +添加主机 ,点击 VMware 选项。

图片2.png

选择其中一个VMware源端连接,并点击 下一步 按钮。

 

在VCenter/ESXi的所有VMware主机列表中 勾选要容灾的主机,并点击 确定 按钮

如果主机较多,可以右上角搜索,并执行批量勾选添加。

在容灾界面可以看到 待容灾的VMware主机清单,勾选要操作的主机,点击 下一步 按钮,进入 容灾配置 操作。

 

3.3.2配置容灾平台

(1)左侧菜单栏点击 容灾平台设置,在左侧点击选择阿里云选项。

(2)按步骤填写信息,创建<云同步网关>组件。

云同步网关万博智云自主开发的云平台适配模块,此处主要作为同步数据过程中接收生产平台的数据使用

图片3.png

确认名称和状态可用后,等待“启动代理实例”完成后,点击 完成 按钮。

 

3.3.3同步数据

进入容灾工具 HyperBDR 界面。

容灾配置步骤一:指定容灾平台,选择容灾主机所在容灾平台的配置信息,并点击 下一步 按钮。

容灾平台信息为空,则表示暂未添加容灾平台,需要 配置容灾平台 ,再进行后续操作。

 

容灾配置步骤二:指定云同步网关,选择容灾主机并加入到云同步网关,并点击 下一步 按钮。

 

容灾配置步骤三:指定卷类型,选择容灾主机在目标容灾平台所使用的卷类型,如果有多个卷,可以按照系统卷和数据卷进行分别设置,设置完成后,并点击 下一步 按钮。

 

容灾配置步骤四:计算资源配置,选择容灾主机在目标容灾平台使用的规格、系统类型、是否重置密码及是否使用密钥对,设置完成后,并点击 下一步 按钮。

 

容灾配置步骤五:网络配置,选择容灾主机在目标容灾平台所使用的网络、子网以及启动时是否指定IP、配置公网IP和安全组,设置完成后,并点击 下一步 按钮。

 

容灾配置步骤六:启动配置,选择容灾主机在目标容灾平台所使用的启动设置,设置完成后,并点击 确定 按钮。

 

容灾配置步骤设置完成后,可以勾选容灾配置完成的单个或多个容灾主机,并点击 下一步 按钮。

在 开始容灾 步骤,可以勾选单个或多个容灾主机,并点击 立即同步 按钮直接进行数据同步,也可以将已经完成 容灾配置 的容灾主机加入到资源组,对 资源组容灾 进行同步数据操作。

图片4.png

确认需要同步的容灾机器,并点击 确定 按钮。

首次点击,将同步全量数据,后续点击将同步增量数据,这里也可以勾选全量数据同步,则表示本次数据同步会全量。

 

 

3.3.4容灾接管/演练

等待数据同步完成(同步快照完成),勾选需要容灾演练/容灾接管主机,并选择 容灾演练/容灾接管 按钮。

容灾演练/容灾接管功能保持一致,此功能则表示将容灾主机在容灾平台进行启动,启动后即可进行相关验证和接管工作。

图片5.png

选择容灾主机启动时数据同步时间点(快照),并点击 确定 按钮,开始主机实例启动。

 

大多数情况下,企业的使用场景是持续备份关键系统数据,而仅在灾难发生时,做云端业务拉起的动作,我们在实践过程中会发现,除了备份会需要消耗一定的云存储外,演练或容灾阶段的费用是极低的。不再需要1:1准备计算资源也能云恢复,这让企业可以以备份的成本享受到容灾体验。

平时企业更多用到的是容灾演练。容灾演练通过假设灾难场景,进行应急演练,可以验证灾备方案是否合理,是否能够达到预期;同时演练环境也可以作为系统升级测试验证的环境,尤其是研发型企业,在系统升级、iT环境变化时,容灾演练环境其实就是一个临时测试环境。

四、总结

云容灾天然的云原生优势按需采购,弹性扩容,让容灾行业有了新的可能性HyperBDR云容灾工具在常见的云容灾工具基础上进一步提高效率降低成本让以前无法负担容灾成本却有容灾需求的中小企业可以实现真正的低成本容灾

HyperBDR高度自动化的设计减少了演练所需技术人员,统一界面配置,普通工程师可以快速掌握;可以在源端业务不停机的情况下实现任意次数容灾演练。实现真正的低成本高效容灾演练

相关文章
|
7月前
|
弹性计算 运维 监控
|
9天前
|
弹性计算 监控 容灾
阿里云ECS提供强大的云上灾备解决方案,通过高可用基础设施、多样的数据备份方式及异地灾备服务,帮助企业实现业务的持续稳定运行
在数字化时代,企业对信息技术的依赖加深,确保业务连续性至关重要。阿里云ECS提供强大的云上灾备解决方案,通过高可用基础设施、多样的数据备份方式及异地灾备服务,帮助企业实现业务的持续稳定运行。无论是小型企业还是大型企业,都能从中受益,确保在面对各种风险时保持业务稳定。
28 4
|
3月前
|
存储 运维 监控
服务器高效运维管理方案
智能运维作为保障业务连续性和提升系统性能的关键环节,其重要性日益凸显。服务器作为承载各类应用与数据的核心基础设施,其稳定性、安全性和性能直接关系到企业的业务运行效率和用户体验
90 1
|
5月前
|
运维 资源调度 监控
云上故障排查:高效定位与解决云端挑战的实战指南
加强监控与告警:建立完善的监控体系,确保能够及时发现并处理潜在问题。 定期演练与培训:定期组织故障排查演练和技能培训,提高团队的应对能力和专业水平。 注重数据保护与隐私:在故障排查过程中,严格遵守数据保护和隐私保护的相关规定,确保用户数据的安全。 结语 云上故障排查是一项复杂而艰巨的任务,需要企业和IT团队具备高度的专业素养和应对能力。通过遵循基本原则、运用有效工具与方法、遵循实战步骤并采纳最佳实践,我们可以
419 0
|
7月前
|
存储 运维 容灾
带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(3)
带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(3)
199 0
|
7月前
|
运维 Prometheus 监控
构建高效稳定的云基础设施:运维最佳实践
【4月更文挑战第20天】 在动态的云计算环境中,确保服务的高效性与稳定性是现代IT运维团队面临的主要挑战。本文深入探讨了一系列运维最佳实践,旨在帮助读者构建和维护一个健壮的云基础设施。从自动化部署、监控策略到灾难恢复计划,文章将详细阐述如何通过这些实践来优化资源使用效率,降低系统故障风险,并提高整体服务质量。
232 0
|
7月前
|
弹性计算 运维 容灾
带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(2)
带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(2)
200 1
|
7月前
|
弹性计算 运维 容灾
带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(1)
带你读《云上自动化运维宝典》——一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例(1)
273 1
|
7月前
|
弹性计算 容灾 网络协议
一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例
阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用CloudOps工具实现运维提效、弹性降本。
573 0
|
7月前
|
弹性计算 运维 监控
带你读《云上自动化运维宝典》——高弹性、高可用、低成本的云上资源管理最佳实践(1)
阿里云弹性计算技术专家高庆瑞主讲《高弹性、高可用、低成本的云上资源管理最佳实践》。
394 0