Hive----执行引擎

简介: 执行引擎

Hive引擎包括:默认MRsparktez

Hive on SparkHive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了SparkSpark负责采用RDD执行。

Spark on HiveHive只作为存储元数据(提供数据源),Spark负责SQL解析优化,语法是Spark SQL语法Spark负责采用RDD执行。

 

mr,基于磁盘进行计算,比较慢

spark,基于内存进行计算,速度比较快

对于超大数据量的话,hiveOnSpark可能会有内存溢出情况

 

image.png

 

目录
相关文章
|
6月前
|
SQL 资源调度 数据库连接
Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南
在Tez上优化Hive查询,包括配置参数调整、理解并行化机制以及容器管理。关键步骤包括YARN调度器配置、安全阀设置、识别性能瓶颈(如mapper/reducer任务和连接操作),理解Tez如何动态调整mapper和reducer数量。例如,`tez.grouping.max-size` 影响mapper数量,`hive.exec.reducers.bytes.per.reducer` 控制reducer数量。调整并发和容器复用参数如`hive.server2.tez.sessions.per.default.queue` 和 `tez.am.container.reuse.enabled`
494 0
|
7月前
|
SQL 存储 Apache
流数据湖平台Apache Paimon(四)集成 Hive 引擎
流数据湖平台Apache Paimon(四)集成 Hive 引擎
477 0
|
SQL 分布式计算 Hadoop
配置Hive使用Spark执行引擎
在Hive中,可以通过配置来指定使用不同的执行引擎。Hive执行引擎包括:默认MR、tez、spark。
287 0
|
SQL 分布式计算 资源调度
hive-3.1.2安装以及使用tez作为执行引擎指南
本文介绍hive-3.1.2安装以及使用tez作为执行引擎指南
hive-3.1.2安装以及使用tez作为执行引擎指南
|
SQL 存储 消息中间件
Hive SQL on Flink 构建流批一体引擎
阿里巴巴开发工程师罗宇侠&方盛凯,在 Flink Forward Asia 2022 流批一体专场的分享。
19127 3
|
SQL 分布式计算 运维
Hive引擎Spark优化配置参数2
上一篇内容讲了资源参数优化,本篇继续说明spark driver以及spark shuffle相关的参数调优。
1123 0
 Hive引擎Spark优化配置参数2
|
SQL 缓存 分布式计算
Hive引擎Spark优化配置参数1
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要描述在底层引擎为Spark时,经常会用到的、常见的配置参数。
2121 0
Hive引擎Spark优化配置参数1
|
SQL 分布式计算 运维
技本功|Hive优化之Spark执行引擎参数调优(二)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。 本文主要结合实际业务情况,在使用Spark作为底层引擎时,通过一些常见的配置参数对报错任务进行调整优化,主要包含以下两个方面:
1266 0
技本功|Hive优化之Spark执行引擎参数调优(二)
|
SQL 分布式计算 Java
Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎
Delta Lake 0.5.0 于2019年12月13日正式发布,这个版本支持多种查询引擎查询 Delta Lake 的数据,比如常见的 Hive、Presto 查询引擎。并发操作得到改进。
Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎
|
SQL 存储 消息中间件
Flink 作为现代数据仓库的统一引擎:Hive 集成生产就绪!
如果你对以上问题深有同感,那说明这篇文章很适合你。我们来看看如何真正解决这个问题。接下来我将带各位了解下 Flink 与 Hive 生产级别的整合工作。