异地多活数据库解决方案
方案背景
随着云计算的蓬勃发展,越来越多信息系统选择部署在云计算环境下,因此基于云产品为信息系统的服务能力和数据质量提供保障尤为重要。为了防止灾难性的故障如火灾、洪水、地震、区域电力中断或者人为破坏等对信息系统造成不可挽回的损坏,需要构建容灾系统来保障信息系统的可用性和安全性。
2007年,国务院信息化办公室联合银行、电力、民航、铁路、证券等八大重点行业,制定发布了国家标准GB/T20988-2007《信息系统灾难恢复规范》,明确规定了容灾能力的6个等级要求。企业在构建容灾系统时往往会参考国标等级,或者以此作为合规要求。然而,大部分传统容灾方案如同城容灾、同城双活、异地容灾、两地三中心等很难达到国标5-6级要求,同时还存在成本浪费,灾备单元健壮性不足等问题。
异地多活是新一代的容灾解决方案,在保证业务持续高可用的同时还能实现成本优化、地域级水平扩展、持续高可用等能力,本文会着重介绍阿里云主流数据库产品在异地多活场景下的解决方案。
方案架构
异地多活从业务视角来看是通过对业务做自顶向下的流量隔离来实现的,按照某一个分流维度对业务流量进行划分,并路由到不同的地域。整个部署架构分多个地域,每个地域称之为一个单元,其中某个单元又承担着整个多活架构的逻辑中心角色,提供一些中心化的服务能力(如sequence_分发,强一致读服务等)。每个单元内的业务架构分为接入层、服务层、数据层:
2007年,国务院信息化办公室联合银行、电力、民航、铁路、证券等八大重点行业,制定发布了国家标准GB/T20988-2007《信息系统灾难恢复规范》,明确规定了容灾能力的6个等级要求。企业在构建容灾系统时往往会参考国标等级,或者以此作为合规要求。然而,大部分传统容灾方案如同城容灾、同城双活、异地容灾、两地三中心等很难达到国标5-6级要求,同时还存在成本浪费,灾备单元健壮性不足等问题。
异地多活是新一代的容灾解决方案,在保证业务持续高可用的同时还能实现成本优化、地域级水平扩展、持续高可用等能力,本文会着重介绍阿里云主流数据库产品在异地多活场景下的解决方案。
方案架构
异地多活从业务视角来看是通过对业务做自顶向下的流量隔离来实现的,按照某一个分流维度对业务流量进行划分,并路由到不同的地域。整个部署架构分多个地域,每个地域称之为一个单元,其中某个单元又承担着整个多活架构的逻辑中心角色,提供一些中心化的服务能力(如sequence_分发,强一致读服务等)。每个单元内的业务架构分为接入层、服务层、数据层:
案例效果
- 针对客户不同的业务模块,实施多种分流策略,自然人电子税务局在线业务实施基于自然人档案号的分流,离线业务清册查询实施按地域分流的多活能力。
- 为客户提供国标6级的容灾效果,实现秒级容灾切换并保证数据0丢失。
- MSHA实现多活流量管控和容灾切换动作。
- 客户部署了两单元,常态每个单元承载50%的业务流量,充分利用两单元的资源。
- 借助多活管控灵活的流量分配策略,实现重大业务发布时的灰度放量能力。
案例-联通新客户
案例背景
联通新客服系统承担着联通全国的客服业务,对持续高可用能力有极高要求,同时也是联通向全站高可用演进的起点,其业务特点以TP业务为主。
案例架构
客户基于此方案,整合RDS、PolarDB-X、DTS、MSHA产品能力,实现了整个新客服系统7个业务中心的多活能力。
- RDS、PolarDB-X承载业务数据并对接多活管控系统。
- DTS实现数据的跨城实时同步和状态上报。
- MSHA实现多活流量管控和容灾切换动作。
案例效果
- 联通新客服系统的接入中心、外呼中心、业务支撑等7个业务实现按地域多活分流。
- 实现多次容灾演练,对多个省份进行切流,秒级完成切换,数据0丢失。
- 客户部署了两单元,常态两个单元均承载业务流量,充分利用两单元的资源。