【Spark Streaming】（一）架构及工作原理-阿里云开发者社区

【Spark Streaming】（一）架构及工作原理

2022-06-11 445

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【Spark Streaming】（一）架构及工作原理

文章目录

一、简介

二、流处理架构

三、Micro-Batch Architecture

四、工作原理

4.1 Streaming Context

4.2 DStream

4.3 Input DStreams & Receivers

五、DStream 操作

六、Spark Streaming 架构

七、Key Points for InputStream

八、Sources of Spark Streaming

九、Spark Streaming 能做什么

一、简介

Spark Streaming 是一个对实时数据流进行高通量、容错处理的流式处理系统，可以对多种数据源（如Kafka、Flume、Twitter、Zero和TCP 套接字）进行类似Map、Reduce和Join等复杂操作，并将结果保存到外部文件系统、数据库或应用到实时仪表盘。

它是一套框架，是 Spark 核心API的一个扩展，可以实现高吞吐量的，具备容错机制的实时流数据处理。

支持多种数据源获取数据：

Spark Streaming 接收Kafka、Flume、HDFS等各种来源的实时输入数据，进行处理后，处理结构保存在HDFS、

DataBase等各种地方。

Dashboards：图形监控界面，Spark Streaming可以输出到前端的监控页面上。

二、流处理架构

三、Micro-Batch Architecture

Spark 处理的是批量的数据（离线数据），Spark Streaming 实际上处理并不是像Strom一样来一条处理一条数据，而是对接的外部数据流之后按照时间切分，批处理一个个切分后的文件，和 Spark 处理逻辑是相同的。

Spark Streaming 将接收到的实时流数据，按照一定时间间隔，对数据进行拆分，交给 Spark Engine 引擎，最终得到一批批的结果。

DStream：Spark Streaming 提供了表示连续数据流的、高度抽象的被称为离散流的 DStream。

假如外部数据不断涌入，按照一分钟切片，每个一分钟内部的数据是连续的（连续数据流），而一分钟与一分钟的切片却是相互独立的（离散流）。

DStream 是 Spark Streaming 特有的数据类型

Spark 2.3.1 开始延迟1毫秒（之前约100毫秒）

Each micro-batch is an RDD – can share code between batch and streaming

四、工作原理

4.1 Streaming Context

Streaming Context consumes a stream of data in Spark.

from pyspark import SparkContext
from pyspark.streaming import StreamingContext
# Create a local StreamingContext with two working threads and a batch interval of 2 seconds
# local[2] – spark executor runs on 2 cores.
sc = StreamingContext( SparkContext("local[2]", "NetWordCount"), 2 )
# ….
sc.start()

JVM中只能激活一个StreamingContext。

StreamingContext不能在停止后重新启动，但是可以重新创建。

4.2 DStream

DStream 离散流由一系列连续的RDD组成，每个RDD都包含了确定时间间隔内的数据：

Spark 的 RDD 可以理解为空间维度，Dstream 的 RDD 理解为在空间维度上又加了个时间维度。

例如上图，数据流进切分为四个分片，内部处理逻辑都是相同的，只是时间维度不同。

# Create a local StreamingContext with two working threads and a batch interval of 2 seconds
sc = StreamingContext( SparkContext("local[2]", "NetWordCount"), 2 )
lines = ssc.socketTextStream("localhost", 3333) # Create a DStream
words = lines.flatMap(lambda line: line.split(" ")) # Split each line into words
pairs = words.map(lambda word: (word, 1)) # Count each word in each batch
wordCounts = pairs.reduceByKey(lambda x, y: x + y)
ssc.start() # Start the computation
ssc.awaitTermination() # Wait for the computation to terminate

Spark 与 Spark Streaming 区别：

Spark -> RDD：transformation action + RDD DAG

Spark Streaming -> Dstream：transformation output（它不能让数据在中间激活，必须保证数据有输入有输出） + DStreamGraph

任何对DStream的操作都会转变为对底层RDD的操作(通过算子)：

总结：将连续的数据持久化，离散化，然后进行批量处理。

持久化：接收到的数据暂存。

为什么持久化：做容错的，当数据流出错了，因为没有得到计算，需要把数据从源头进行回溯，暂存的数据可以进行恢复。

离散化：按时间分片，形成处理单元。

分片处理：分批处理。

4.3 Input DStreams & Receivers

Input DStreams represent the stream of input data received from streaming sources.

每个Input DStream(文件流除外)都与 Receiver 接收方对象相关联，接收方对象从源接收数据并将其存储在Spark内存中进行处理。

可以在相同的 StreamingContext 下创建多个 Input DStreams

五、DStream 操作

1.1 普通的转换操作：map、flatMap、flter、union、count、join等

1.2 transform(func)操作：允许DStream 上应用任意RDD-to-RDD函数

1.3 updateStateByKey操作：

1.4 窗口转换操作：允许你通过滑动窗口对数据进行转换，如countByWindow、 reduceByKeyAndWindow等，(批处理间隔、窗口间隔和滑动间隔)

2.输出操作：允许DStream的数据被输出到外部系统，如数据库或文件系统，有print()、foreachRDD(func)、saveAsTextFiles()、 saveAsHadoopFiles()等

3.持久化：通过persist()方法将数据流存放在内存中，有利于高效的迭代运算

六、Spark Streaming 架构

Master：记录Dstream之间的依赖关系或者血缘关系，并负责任务调度以生成新的RDD

Worker：从网络接收数据，存储并执行RDD计算

Client：负责向Spark Streaming中灌入数据

调度：按照时间触发。

Master：维护了DStream Graph这张图。（不是节点级别的，是任务级别的）

Worker：按照图去执行。

Worker 里面有个重要的角色：receiver，接收外部数据流，然后数据流通过 receiver 传入整个 Spark Streaming 内部（ receiver 最终把数据流包装成 Spark Streaming 能处理的格式）

receiver：接收器，接收不同的数据源，进行针对性的获取，Spark Streaming 也提供了不同的接收器分布在不同的节点上，每个接收器都是一个特定的进程，每个节点接收一部分作为输入。，receiver接受完不马上做计算，先存储到它的内部缓存区。因为Streaming 是按照时间不断的分片，所以需要等待，一旦定时器到时间了，缓冲区就会把数据转换成数据块block（缓冲区的作用：按照用户定义的时间间隔切割），然后把数据块放到一个队列里面去，然后Block manager从队列中把数据块拿出来，把数据块转换成一个spark能处理的数据块。

为什么是一个进程？

container -> Executor 所以是一个进程

Spark Streaming 作业提交：

• Network Input Tracker：跟踪每一个网络received数据，并且将其映射到相应的input Dstream上

• Job Scheduler：周期性的访问DStream Graph并生成Spark Job，将其交给Job Manager执行

• Job Manager：获取任务队列，并执行Spark任务

Spark Streaming 窗口操作：

• Spark 提供了一组窗口操作，通过滑动窗口技术对大规模数据的增量更新进行统计分析

• Window Operation：定时进行一定时间段内的数据处理

任何基于窗口操作需要指定两个参数：

窗口总长度（window length）：你想计算多长时间的数据

滑动时间间隔（slide interval）：你每多长时间去更新一次

七、Key Points for InputStream

When running Spark-Streaming program locally, always use

“local[n]” as the master URL, where n > number of

receivers;

When running on a cluster, the number of cores allocated to

the Spark Streaming application must be more than the

number of receivers.

八、Sources of Spark Streaming

Spark StreamingContext has the following built-in Support for creating

Streaming Sources:

def textFileStream(directory: String): DStream[String]
Process files in directory – hdfs://namenode:8020/logs/
def socketTextStream(hostname: String, port: Int, storageLevel: StorageLevel
StorageLevel.MEMORY_AND_DISK_SER_2): ReceiverInputDStream[String]
Create an input stream from a TCP source

Flume Sink for Spark Streaming

val ds = FlumeUtils.createPollingStream(streamCtx, [sink hostname], [sink port]);

Kafka Consumer for Spark Streaming

val ds = KafkaUtils.createStream(streamCtx, zooKeeper, consumerGrp, topicMap);

九、Spark Streaming 能做什么

目前而言SparkStreaming 主要支持以下三种业务场景

1、无状态操作：只关注当前批次中的实时数据，例如：

商机标题分类，分类http请求端 -> kafka -> Spark Streaming -> http请求端Map -> 响应结果

网库Nginx访问日志收集，flume->kafka -> Spark Streaming -> hive/hdfs

数据同步，网库主站数据通过“主站”->kafka->Spark Streaming -> hive/hdfs

2、有状态操作：对有状态的DStream进行操作时,需要依赖之前的数据除了当前新生成的小批次数据，但还需要用到以前所生成的所有的历史数据。新生成的数据与历史数据合并成一份流水表的全量数据例如:

实时统计网库各个站点总的访问量

实时统计网库每个商品的总浏览量，交易量，交易额

3、窗口操作：定时对指定时间段范围内的DStream数据进行操作，例如：

网库主站的恶意访问、爬虫，每10分钟统计30分钟内访问次数最多的用户

【Spark Streaming】（一）架构及工作原理

文章目录

一、简介

二、流处理架构

三、Micro-Batch Architecture

四、工作原理

4.1 Streaming Context

4.2 DStream

4.3 Input DStreams & Receivers

五、DStream 操作

六、Spark Streaming 架构

七、Key Points for InputStream

八、Sources of Spark Streaming

九、Spark Streaming 能做什么

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【Spark Streaming】（一）架构及工作原理

文章目录

一、简介

二、流处理架构

三、Micro-Batch Architecture

四、工作原理

4.1 Streaming Context

4.2 DStream

4.3 Input DStreams & Receivers

五、DStream 操作

六、Spark Streaming 架构

七、Key Points for InputStream

八、Sources of Spark Streaming

九、Spark Streaming 能做什么

热门文章

最新文章

相关课程

相关电子书

相关实验场景