大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习大数据之前有必要了解一下每一个生态圈体系中具体包含哪些组件,以及它们的作用又是什么。
视频讲解如下:
一、大数据的数据存储组件
在大数据体系中使用了分布式存储的方式解决了海量数据的存储问题。它分为离线数据存储和实时数据存储。
(一)大数据离线数据存储组件
大数据离线数据存储组件主要包括:HDFS、HBase和Hive。这三个组件都属于Hadoop生态圈体系。下面分别进行介绍。
- HDFS
它的全称是Hadoop Distributed File System,它是Hadoop分布式文件系统,用于解决大数据的存储问题。HDFS源自于Google的GFS论文,可用于运行在低成本的通用硬件上,是一个具有容错的文件系统。
- HBase
基于HDFS之上的分布式列式存储NoSQL数据库,起源于Google的BigTable思想。由于HBase的底层是HDFS,因此HBase中创建的表和表中数据最终都是存储在HDFS上。HBase的核心是列式存储,它适合执行查询操作。
- Hive
Hive是基于HDFS之上的数据仓库,支持标准的SQL语句。默认情况下,Hive的执行引擎是MapReduce。Hive可以把一条标准的SQL转换成是MapReduce任务运行在Yarn之上。
提示:Hive的执行引擎也可以是Spark,即:Hive on Spark。
(二)大数据实时数据存储组件
大数据实时数据存储组件主要使用消息系统Kafka。
- Kafka
Kafka是由Apache软件基金会开发的一个开源流处理平台,它是一种高吞吐量的分布式发布订阅消息系统。Kafka的诞生是为了解决LinkedIn的数据管道问题。起初LinkedIn采用ActiveMQ进行数据交换。在2010年前后,Active MQ远远无法满足LinkedIn对数据传递系统的要求,经常由于各种缺陷导致消息阻塞或服务无法正常访问。为了解决这个问题,LinkedIn决定研发自己的消息传递系统。当时LinkedIn的首席架构师Jay Kreps组织团队进行消息传递系统的研发,进而有了现在的Kafka消息系统。
二、大数据的数据计算组件
大数据生态圈提供了各种计算引擎。通过使用这些计算引擎来执行批处理的离线计算和流处理的实时计算;同时也提供了各种数据分析引擎,用于支持SQL语句
(一)大数据批处理的离线计算组件
大数据批处理的离线计算组件主要包括:MapReduce、Spark Core和Flink DataSet。下面分别进行介绍。
- MapReduce
MapReduce是一种分布式计算模型,用以进行大数据量的计算,它是一种离线计算处理模型。MapReduce通过Map和Reduce两个阶段的划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。通过MapReduce既可以处理HDFS中的数据,也可以处理HBase中的数据。
提示:在Hadoop的安装包中已经集成了HDFS与Yarn。因此Hadoop安装成功后,可以直接执行MapReduce任务处理HDFS的数据。
- Spark Core
Spark Core是Spark的核心部分,也是Spark执行引擎。在Spark中执行的所有计算都是由Spark Core完成,它是一个种离线计算引擎。Spark Core提供了SparkContext访问接口用于提交执行Spark任务。通过该访问接口既可以开发Java程序,也可以开发Scala程序来分析和处理数据。SparkContext也是Spark中最重要的一个对象。
提示:Spark中的所有计算都是Spark Core离线计算,因此Spark生态圈体系中不存在真正的实时计算。
- Flink DataSet
Flink DataSet API是Flink中用于处理有边界数据流的功能模块,其本质就是执行批处理的离线计算,这一点与Hadoop中的MapReduce和Spark中的Spark Core其实是一样的。下表1列出了Flink DataSet API中的一些常见的算子。
(二)大数据流处理的实时计算组件
大数据流处理的实时计算组件主要包括:Spark Streaming和Flink DataStream。下面分别进行介绍。
- Spark Streaming
Spark Streaming是核心Spark API的扩展,它可实现可扩展、高吞吐量、可容错的实时数据流处理。但是Spark Streaming底层的执行引擎依然是Spark Core,这就决定了Spark Streaming并不是真正的流处理引擎,它是通过时间的采样间隔把流式数据编程小批量数据进行处理,其本质任然是批处理的离线计算。Spark Streaming访问接口是StreamingContext。
- Flink DataStream
Flink DataStream API可以从多种数据源创建DataStreamSource,如:消息队列Kafka、文件流和Socket连接等等;然后,通过Transformation的转换操作进行流式数据的处理;最后由Sink组件将处理的结果进行输出。
(三)大数据数据分析组件
为了支持使用SQL处理大数据便有了各种大数据分析引擎,主要包括:Hive、Spark SQL、Flink SQL等下面分别进行介绍。
- Hive
Hive是基于HDFS之上的数据仓库,支持标准的SQL语句。默认情况下,Hive的执行引擎是MapReduce。Hive可以把一条标准的SQL转换成是MapReduce任务运行在Yarn之上。
提示:Hive的执行引擎也可以是Spark,即:Hive on Spark。
- Spark SQL
Spark SQL是Spark用来处理结构化数据的一个模块,它的核心数据模型是DataFrame,其访问接口是SQLContext。这里可以把DataFrame理解成是一张表。当DataFrame创建成功后,Spark SQL可支持DSL语句和SQL语句来分析处理数据。由于Spark SQL底层的执行引擎是Spark Core,因此Spark SQL执行的本质也是执行的一个Spark Core任务。
- Flink Table & FlinkSQL
与Hadoop的Hive和Spark SQL类似,在Flink的生态圈体系中也提供了两个关系型操作的API:Table API 和SQL。Flink Table API 是用于Scala 和Java 语言的查询API,允许以非常直观的方式组合关系运算符的查询,如 select、filter 和 join;Flink SQL API支持的是实现了标准SQL的Apache Calcite。通过这套接口,能够使用SQL语句处理DataSet数据流和DataStream数据流。