BDS-HBase集群之间数据迁移同步的利器

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: BDS针对开源HBase目前存在的同步迁移痛点,自主研发的一套数据迁移的平台,用于HBase集群的无缝迁移、主备容灾、异地多活、在线离线业务分离、HBase数据归档、对接RDS实时增量数据等等。目的在于帮助阿里云上客户解决自建HBase、EMR HBase、Apsara HBase的数据导入导出,从.

HBase用户福利

新用户9.9元即可使用6个月云数据库HBase,更有低至1元包年的入门规格供广大HBase爱好者学习研究,更多内容请参考链接

BDS定位

BDS针对开源HBase目前存在的同步迁移痛点,自主研发的一套数据迁移的平台,用于HBase集群的无缝迁移、主备容灾、异地多活、在线离线业务分离、HBase数据归档、对接RDS实时增量数据等等。目的在于帮助阿里云上客户解决自建HBase、EMR HBase、Apsara HBase的数据导入导出,从而方便云上客户围绕HBase构建高可用、灵活的业务系统

使用场景

BDS在云上目前主要有以下几个使用场景

  • 新旧集群无缝迁移
  • 在线离线业务分离
  • 主备容灾
  • RDS实时数据同步到HBase、Phoenix

新旧集群无缝迁移

使用范围
  • HBase大版本升级, 1.x 升级 2.x
  • 集群配置升级
  • 集群网络的切换,经典切换VPC
  • 异地跨机房迁移
  • 业务拆分
业务流程

1559788573739_2a2b8d4b_8015_4f2a_a122_05eb8ffa63a0

在线离线业务分离

业务架构

1559788694489_57b33992_ce29_4277_a90b_0f121dee2630

通过BDS,将在线业务数据实时同步到离线集群,结合Spark、MR等大数据组件进行离线的数据分析,从而不影响在线业务的查询

主备容灾

业务流程

1559788791153_d61a9501_74c1_425f_91e4_815c71ef7c3a

通过BDS在主备集群之间实现实时数据的双向同步,当主集群出现问题,可以切换到备集群,尽可能减少对业务产生的影响,当主集群服务恢复之后,通过BDS同步服务补齐主集群遗漏的数据

RDS实时数据同步到HBase、Phoenix

业务架构

1559788841968_3a1f72f4_2083_445c_9955_a302d692afc0

通过BDS将RDS数据实时同步到HBase集群

  • 结合Spark、MR等大数据组件进行离线的数据分析,从而不影响在线业务的查询
  • 利用HBase支持动态列的功能,将mysql中多张表构建成一张HBase的大宽表,避免在RDS中进行join查询
  • 做RDS的历史库

BDS优势

  1. 功能性

    1. 支持跨版本的数据迁移和同步,HBase <-> HBase、Phoenix <-> Phoenix
    2. 对于同构数据源迁移,支持同步建表语句,保证分区一致
    3. 支持异构数据源的实时数据同步,RDS -> HBase、Phoenix
  2. 迁移同步对业务方无感知

    1. 不停服数据迁移,同时搞定历史数据迁移、实时增量数据的同步
    2. 对业务端应用代码无侵入
  3. 迁移同步对业务影响小

    1. 迁移过程中基本不会和集群的HBase交互,只读写集群的HDFS
    2. 可以动态调整迁移的速度和并发读
  4. 正确性

    1. 保证数据迁移的不丢失
    2. 数据的抽样校验
  5. 稳定性

    1. 有完善的failover机制,能够自动处理常见的错误
    2. 实时系统监控,方便定位上下游的问题
    3. 报警机制,对于一些需要人为介入的异常进行报警
    4. 错误重试支持断点续传
  6. 高效性

    1. 单个节点迁移速度可达到100MB/s,节点数支持水平扩展,能够满足支持TB、PB级别的数据迁移

总结

BDS已经在阿里云上线了,方便云上的客户在自建HBase、EMR HBase、Apsara HBase之间进行数据的迁移和实时数据同步。
在云上已经服务40多个客户,帮助客户实现集群之间的无缝迁移,集群的升配,主备容灾,数据迁移同步规模达到400多T(单副本)。
云上有迁移需求的客户,可以查看《BDS服务介绍》,或者联系侧田
对BDS实现原理及方案比较感兴趣的朋友,可以查看《BDS-HBase数据同步方案的设计与实践》

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
存储 Oracle 关系型数据库
HBase集群环境搭建与测试(上)
HBase集群环境搭建与测试
263 0
|
SQL 分布式计算 Hadoop
Hadoop集群hbase的安装
Hadoop集群hbase的安装
211 0
|
大数据 分布式数据库 Docker
基于Docker搭建大数据集群(七)Hbase部署
基于Docker搭建大数据集群(七)Hbase部署
|
7月前
|
机器学习/深度学习 分布式计算 Hadoop
一种HBase表数据迁移方法的优化
一种HBase表数据迁移方法的优化
94 0
|
27天前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 监控关注的核心指标包括 Master 和 RegionServer 的进程存在性、RPC 请求数、JVM 内存使用率、磁盘和网络错误、延迟和吞吐量、资源利用率及 JVM 使用信息。通过 Grafana 可视化和告警规则,帮助管理员实时监控集群性能和健康状况。
|
2月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
76 4
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
34 3
|
2月前
|
分布式计算 Hadoop Shell
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
59 3
|
4月前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
144 2
|
4月前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?