Hive 应该是最有名气的数据仓库工具了吧,他将HDFS 上的数据组织成关系型数据库的形式,并提供了HiveSQL 进行结构化查询,使得数据分析人员可以从传统的关系型数据库几乎无缝的过渡到HDFS 上, 但其个别函数和传统SQL还是有区别的,并且默认也不支持update 和delete 操作。但开发人员可以开发UDF, 为HiveSQL 扩充属于自己的功能函数。Hive 本身的计算是基于MapReduce 的, 后来为了应对SparkSQL 的出现,开发组推出了Hive on Spark,使得SQL的解释、分析、优化还是在Hive 上,而执行阶段交由Spark去完成,从而以达到和SparkSQL 近似的速度。Tez 是对Hive 的另一项优化,为其引入了DAG 的概念,增加任务并行度从而提升Hive 的查询速度,但其本质仍旧是MapReduce, 所以提升效果相比Hive on Spark 来讲并不足够明显。
以上内容摘自《高德技术2020年刊合集》电子书,点击https://developer.aliyun.com/topic/download?id=1135可下载完成版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。