分布式SQL计算
数据的统计可以使用编程语言和sql
对数据进行统计分析,SQL目前是最为方便的编程工具
大数据体系中充斥着非常多的统计分析场景
所以使用sql去处理数据,在大数据中也是有极大的需求的
MapReduce支持程序开发(JAVA,python)
但是不支持SQL开发
为什么使用Hive
使用Hadoop MapReduce直接处理数据所面临的问题
人员学习成本太高,需要掌握java,python等编程语言
MapReduce实现复制查询逻辑开发难度太大
使用Hive处理数据的好处
操作接口采用类SQL语法,提供快速开发的能力(简单,易上手)
底层执行MapReduce,可以完成分布式海量数据的SQL处理