《CDP企业数据云平台从入门到实践》——CDP之操作型数据库(3)

本文涉及的产品
密钥管理服务KMS,1000个密钥,100个凭据,1个月
简介: 《CDP企业数据云平台从入门到实践》——CDP之操作型数据库(3)

《CDP企业数据云平台从入门到实践》——CDP之数据储存(2) https://developer.aliyun.com/article/1226409?spm=a2c6h.13148508.setting.14.12f54f0eNj6eW1


3. 如何使用 OPDB?


OPDB 可以在 HUE 中使用,HUE 支持 HBase 的搜索、插入、更新、删除、DDL 等操作。

image.png


同时,HUE 支持 SQL(Phonix)接口,可以在 HUE 中通过 Phonix 接口调用 HBase数据插入、更新、删除查询。


image.png


4. 快速启动项目


参考网址:https://github.com/cloudera/cod-examples


下图列举了基于 Java、Python 和 C#的入门示例,以方便大家体验 OPDB。


image.png



三、 企业就绪的 OPDB


OPDB 是一款企业就绪的产品。


1. OPDB 的安全模型


1) 认证


基于 Kerberos 的身份验证,可以与大多数企业身份和角色管理系统集成。


2) 授权


OPDB 通过 Ranger 进行授权管理,Ranger 中的命名空间、表、列族和列范围可以设置读、写、创建或管理权限。


3) 加密


数据加密通过 TSL 来完成:

• 传输中数据的传输级加密(RPC、WAL)。

• 静态数据的文件级加密(HFiles)。


2. 开箱即用的高可用性


OPDB 中的数据分布在 Ragion Server(RS)中,如下图所示,表(Table)按键范围划分为区域,RS 管理多个区域,并维护预写日志(WAL)以跟踪突变,WAL 和区域文件保存在共享文件系统(HDFS 或对象存储)中。

image.png

当 Region Server 崩溃时,受影响区域的客户端请求(读取、写入)将超时。


受影响的区域被重新分配给剩余的区域服务器,并重播 WAL 使受影响的区域保持更新。至此可以再次为受影响的地区提供服务,恢复时间<1 分钟。


如下图所示,假设 RS3 崩溃,其中的 D 和 F 将被重新分配到 RS1 和 RS2 中,并通过共享文件系统访问数据。


3. OPDB 复制


OPDB 的复制用于实施弹性和灾难恢复的全功能。


OPDB 的特性:


• OPDB 复制是异步复制。

• 最终或时间线的一致性。

• 作用于命名空间、表或列族。

• 任意拓扑

单向(A->B)

双向(A<-->B)

一对多(A->B,C,D)

循环(A->B->C->A)


1) 混合集群类型


• 跨数据中心、区域或可用区。

• 不同大小的源和目标集群。

• 从不安全到安全的集群。

• 跨 Kerberos 域,没有 x-realm 信任。


2) 批量加载被复制

image.png


4. 备份和灾难恢复选项


备份和灾难恢复常见的方式有:Replication 和 Snapshots,对于小数据量可以使用SyncTable 和 CopyTable。

image.png


1) Replication


可以自动进行完整的复制,在配置完成后将 HBase 从源自动复制到目标端,是目前最新的一种复制方式。


2) 快照(Snapshots)


• 快照在创建时占用空间很小,但可能会随着时间的推移而扩展,具体取决于数据更改率。

• 如果是灾备,要将它们运送到另一个系统,则需要完整的数据副本。

• 同样,远程系统上的快照加载比本地系统上的加载花费更长的时间。


5. 资源管理


如图所示,配额的范围可以是用户、表或命名空间。

image.png


《CDP企业数据云平台从入门到实践》——CDP之数据储存(4) https://developer.aliyun.com/article/1226399?groupCode=ClouderaCDP



目录
相关文章
|
2月前
|
Java 数据库连接 测试技术
SpringBoot入门 - 添加内存数据库H2
SpringBoot入门 - 添加内存数据库H2
85 3
SpringBoot入门 - 添加内存数据库H2
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
2月前
|
Java 数据库连接 测试技术
SpringBoot入门(4) - 添加内存数据库H2
SpringBoot入门(4) - 添加内存数据库H2
57 4
SpringBoot入门(4) - 添加内存数据库H2
|
2月前
|
存储 监控 数据处理
flink 向doris 数据库写入数据时出现背压如何排查?
本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
194 61
|
5天前
|
存储 安全 数据管理
时序数据库TDengine 与中移软件达成兼容性互认证,推动虚拟化云平台与时序数据库的深度融合
在数字化转型和智能化升级的浪潮下,企业对数据的需求日益增长,尤其是在物联网、大数据和实时分析等领域。随着设备数量的激增,时序数据的管理和处理变得愈发复杂,企业亟需高效、稳定的数据解决方案来应对这一挑战。时序数据库作为专门处理时间序列数据的工具,正逐渐成为各行业数字化转型的重要支撑。
22 4
|
5天前
|
SQL 存储 运维
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
17 1
|
10天前
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
13天前
|
前端开发 JavaScript 数据库
获取数据库中字段的数据作为下拉框选项
获取数据库中字段的数据作为下拉框选项
42 5
|
2月前
|
SQL 关系型数据库 数据库
国产数据实战之docker部署MyWebSQL数据库管理工具
【10月更文挑战第23天】国产数据实战之docker部署MyWebSQL数据库管理工具
169 4
国产数据实战之docker部署MyWebSQL数据库管理工具
|
2月前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据