《CDP企业数据云平台从入门到实践》——CDP之数据仓库(1)

简介: 《CDP企业数据云平台从入门到实践》——CDP之数据仓库(1)


CDP 之数据仓库


Cloudera Data Platform 的数据仓库功能主要有 Apache Impala、Apache Hive 和Hue进行支持。使用这些组件熟悉的 SQL 接口,您可以访问您的数据。


一、 数据仓库概览


1. Hive Metastore 概述


Hive metastore(HMS)是一种服务,用于在后端 RDBMS(例如 MySQL 或PostgreSQL)中存储与 Apache Hive 和其他服务相关的元数据。Impala、Spark、Hive 和其他服务共享 Metastore。与 HMS 的连接包括 HiveServer、Ranger 和代表 HDFS 的NameNode。


Beeline、Hue、JDBC 和 Impala shell 客户端通过 thrift 或 JDBC 向 HiveServer 发出请求。HiveServer 实例向 HMS 读取/写入数据。默认情况下,冗余 HMS 以主动/主动模式运行。物理数据驻留在后端 RDBMS 中,其中一个用于 HMS。所有 HMS 实例都使用相同的后端数据库。一个单独的 RDBMS 支持安全服务,例如 Ranger。在任何给定时间,所有连接都路由到单个 RDBMS 服务。HMS 通过 thrift 与 NameNode对话,并充当 HDFS 的客户端。



image.png

HMS 直接连接到 Ranger 和 NameNode(HDFS),HiveServer 也是如此,但为简单起见,图中未显示。后端的一个或多个 HMS 实例可以与其他服务通信,例如Ranger。


2. Apache Hive 概览


Apache Hive 3.x 的主要更改改进了 Apache Hive 2.x 事务和安全性。了解这些版本之间的主要差异对于 SQL 用户(包括使用 Apache Spark 和 Apache Impala 的用户)来说至关重要。


Hive 是一个数据仓库系统,用于汇总、查询和分析庞大的不同数据集。


1) ACID 事务处理


Hive 3 表符合 ACID(原子性、一致性、隔离性和持久性)。Hive 3 写入和读取操作提高了事务表的性能。原子操作包括简单的写入和插入、写入多个分区以及在单个SELECT 语句中进行多次插入。读取操作不受操作期间发生的更改的影响。您可以插入或删除数据,并且它在整个软件和硬件崩溃期间保持一致。Hive 表的创建和维护得到简化,因为不再需要存储表。


2) 物化视图


因为多个查询经常需要相同的中间汇总表或连接表,所以您可以通过预先计算中间表并将其缓存到视图中来避免代价高昂的重复查询部分共享。


3) 查询结果缓存


Hive 过滤并缓存相似或相同的查询。Hive 不会重新计算未更改的数据。当成百上千的 BI 工具和 Web 服务用户查询 Hive 时,缓存重复查询可以大大减少负载。


4) 预定查询


使用 SQL 语句,您可以安排 Hive 查询定期运行、监控查询进度、暂时忽略查询计划并限制并行运行的数量。例如,您可以使用计划查询来启动压缩并定期重建物化视图。


5) 安全改进


Apache Ranger 默认保护 Hive 数据。为了满足并发改进、ACID 支持、呈现安全性和其他功能的需求,Hive 严格控制文件系统或对象存储和内存资源上的仓库位置。借助Apache Ranger 和 Apache Hive ACID 支持,您的组织将准备好支持和实施GDPR(通用数据保护条例)。


6) 连接池


Hive 支持 HakariCP JDBC 连接池。


7) 不支持的功能


CDP 不支持 HDP 和 CDH 平台中可用的以下功能:

• CREATE TABLE 指定托管表位置

不要使用 LOCATION 子句创建托管表。Hive 将仓库中的默认位置分配给托管表。

• 创建索引

Hive 在主表中的 ORC 或 Parquet 中自动构建和存储索引,而不是在不同的表中自动存储。设置 hive.optimize.index.filter 为启用(不推荐——改用物化视图)。在升级期间,现有索引将在 Parquet 或 ORC 中保留并迁移到 CDP。


《CDP企业数据云平台从入门到实践》——CDP之数据仓库(2) https://developer.aliyun.com/article/1226345?groupCode=ClouderaCDP

目录
相关文章
|
3月前
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
72 3
|
4月前
|
存储 Cloud Native 关系型数据库
云原生数据仓库使用问题之如何将一行数据转换为多行数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
2月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
70 4
|
1月前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
|
3月前
|
Java Spring 监控
Spring Boot Actuator:守护你的应用心跳,让监控变得触手可及!
【8月更文挑战第31天】Spring Boot Actuator 是 Spring Boot 框架的核心模块之一,提供了生产就绪的特性,用于监控和管理 Spring Boot 应用程序。通过 Actuator,开发者可以轻松访问应用内部状态、执行健康检查、收集度量指标等。启用 Actuator 需在 `pom.xml` 中添加 `spring-boot-starter-actuator` 依赖,并通过配置文件调整端点暴露和安全性。Actuator 还支持与外部监控工具(如 Prometheus)集成,实现全面的应用性能监控。正确配置 Actuator 可显著提升应用的稳定性和安全性。
107 0
|
4月前
|
存储 SQL Cloud Native
云原生数据仓库使用问题之如何将数据设置为冷存储
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库使用问题之如何将ADB中的数据导出到自建的MySQL数据库
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
数据采集 存储 数据管理
OneData:阿里巴巴的数据仓库之旅与统一数据治理实践
OneData 为解决大数据时代的挑战提供了一条可行的道路,对于其他企业和组织来说具有重要的参考意义。随着技术的不断进步和应用场景的扩展,OneData 的未来发展值得期待。
|
5月前
|
存储 SQL Cloud Native
云原生数据仓库AnalyticDB产品使用合集之热数据存储空间在什么地方查看
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
117 4