《CDP企业数据云平台从入门到实践》——CDP之操作型数据库(1)

简介: 《CDP企业数据云平台从入门到实践》——CDP之操作型数据库(1)


CDP 之操作型数据库


一、 什么是操作型数据库(OPDB)


1. 操作型数据库(OPDB)定义


Cloudera 操作型数据库(Operational Database)由 Apache HBase 和 Apache Phoenix 提供支持。Apache HBase 是一个 NoSQL 数据库,提供对大型数据集的实时读/写访问。Apache Phoenix 提供了一个 SQL 接口来管理 Apache HBase 中的数据。由Apache Accumulo 提供支持的操作数据库是 Apache Accumulo 的 Cloudera软件包。


Cloudera 操作型数据库提供实时、始终可用、可扩展的操作数据库,在统一的操作和仓储平台内为传统结构化数据和非结构化数据提供服务。


Cloudera 操作型数据库在企业数据生命周期中扮演着数据存储的关键角色。下图显示了典型的操作型数据库部署中的一些关键元素。

image.png

操作数据库具有以下组件:


• Apache Phoenix 提供了一个在 Apache HBase 之上运行的 SQL 接口。

• Apache HBase 为键值存储提供了巨大的可扩展性,因此您可以在单一平台中存储无限量的数据,并满足不断增长的数据服务需求。

• Apache ZooKeeper 提供分布式配置服务、同步服务和命名注册表。

• Apache Knox Gateway 提供外围安全性,以便企业可以放心地将访问权限扩展到新用户。

• Apache HDFS 用于编写 Apache HBase WAL。

• Hue 提供了一个基于 Web 的编辑器来创建和浏览 Apache HBase 表。

• Amazon S3和Microsoft ADLS Gen2等对象存储用于存储Apache HBase HFiles。

• CLoudera Shared Data Experience(SDX)用于安全和治理功能。安全和治理策略设置一次并应用于所有数据和工作负载。

• IDBroker 提供作为 Apache Knox 身份验证服务的一部分构建的身份验证机制。


它允许经过身份验证和授权的用户交换一组凭据或令牌以获取云供应商访问令牌。

操作型数据库的两个主要特性:


1) 快速灵活


Not-only-SQL 数据库能够每秒处理数百万个事务,支持:

• Schema 演变

• 多行事务

• 二级索引

• 时间旅行查询


2) 企业就绪


容错、开源、分布式数据库,可扩展到 PB 级,具有:


• 高可用性

• 批量加载、快照和复制

• 安全和角色管理

• 资源分配

• 混合部署


2. OPDB 应用场景


OPDB 支持的场景涉及制造、医疗保健、金融服务和其他行业,用户包括 Cerner、

智能手机制造商、财经媒体之家、保险供应商、图书馆服务供应商等。

image.png


3. OPDB 的组成


OPDB 由两部分组成:APACHE HBASE 和 PHOENIX。


1) APACHE HBASE:低成本、高扩展、云智能的大数据 NoSQL。

Apache HBase 数据库提供对数据的随机、持久访问。Apache HBase 非常适合需要为最终用户应用程序提供实时分析和表格数据的场景。


作为一个原生的非关系数据库,Apache HBase 可以组合使用各种结构和模式的数据源。HBase 专为弹性数据存储而设计,旨在托管具有稀疏数据的非常大的表。Apache HBase 可以托管大数据表,因为它可以线性扩展以处理非常大(PB 级)、面向列的数据集。数据存储基于支持分布式环境中低延迟读取、写入和更新的键值模型。


特性:


• 可靠、成熟的存储引擎

• 高扩展性:扩展到 PB

• 容错和弹性

• 支持快照和复制

• 带配额的资源管理

• 基于 Kerberos 和 Ranger 的安全性

• 时间旅行查询


缺点:


• 提供低级编程接口,对用户编程能力要求较高。

• 开发人员需要管理数据序列化,操作复杂度高。


2) PHOENIX:在 HBase 之上的一个 SQL 关系层


Apache Phoenix 是 Apache HBase 的 SQL 层,它提供了一个程序化的 ANSI SQL 接

口。


Apache Phoenix 实施最佳实践优化,使软件工程师能够开发基于 HBase 的下一代应用程序来操作大数据。使用 Phoenix,您可以使用 Phoenix 标准 JDBC API 以典型DDL/DML 语句的形式创建表并与之交互。


可以使用 Apache Phoenix SQL 命令来创建、删除或修改 Apache HBase 表。您还可以创建 Apache Phoenix 视图,这些视图是共享同一个 Apache HBase 表的虚拟表。


特性:

• 熟悉的 SQL 接口

• 支持类型的标准编码

• Schema 演变

• 多行事务

• 二级索引


《CDP企业数据云平台从入门到实践》——CDP之数据储存(2) https://developer.aliyun.com/article/1226409?spm=a2c6h.13148508.setting.14.12f54f0eNj6eW1



目录
相关文章
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
2月前
|
存储 监控 数据处理
flink 向doris 数据库写入数据时出现背压如何排查?
本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
194 61
|
5天前
|
存储 安全 数据管理
时序数据库TDengine 与中移软件达成兼容性互认证,推动虚拟化云平台与时序数据库的深度融合
在数字化转型和智能化升级的浪潮下,企业对数据的需求日益增长,尤其是在物联网、大数据和实时分析等领域。随着设备数量的激增,时序数据的管理和处理变得愈发复杂,企业亟需高效、稳定的数据解决方案来应对这一挑战。时序数据库作为专门处理时间序列数据的工具,正逐渐成为各行业数字化转型的重要支撑。
22 4
|
5天前
|
SQL 存储 运维
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
17 1
|
10天前
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
13天前
|
前端开发 JavaScript 数据库
获取数据库中字段的数据作为下拉框选项
获取数据库中字段的数据作为下拉框选项
42 5
|
2月前
|
SQL 关系型数据库 数据库
国产数据实战之docker部署MyWebSQL数据库管理工具
【10月更文挑战第23天】国产数据实战之docker部署MyWebSQL数据库管理工具
169 4
国产数据实战之docker部署MyWebSQL数据库管理工具
|
2月前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据
|
2月前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
3月前
|
人工智能 Cloud Native 容灾
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?