【Spark Streaming】(一)架构及工作原理

简介: 【Spark Streaming】(一)架构及工作原理

文章目录


一、简介


二、流处理架构


三、Micro-Batch Architecture


四、工作原理


4.1 Streaming Context

4.2 DStream

4.3 Input DStreams & Receivers


五、DStream 操作


六、Spark Streaming 架构


七、Key Points for InputStream


八、Sources of Spark Streaming


九、Spark Streaming 能做什么


一、简介


Spark Streaming 是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kafka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。


它是一套框架,是 Spark 核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。


支持多种数据源获取数据:


image.png


Spark Streaming 接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结构保存在HDFS、


DataBase等各种地方。


Dashboards:图形监控界面,Spark Streaming可以输出到前端的监控页面上。


二、流处理架构


image.png


三、Micro-Batch Architecture


Spark 处理的是批量的数据(离线数据),Spark Streaming 实际上处理并不是像Strom一样来一条处理一条数据,而是对接的外部数据流之后按照时间切分,批处理一个个切分后的文件,和 Spark 处理逻辑是相同的。


Spark Streaming 将接收到的实时流数据,按照一定时间间隔,对数据进行拆分,交给 Spark Engine 引擎,最终得到一批批的结果。


image.png


DStream:Spark Streaming 提供了表示连续数据流的、高度抽象的被称为离散流的 DStream。


假如外部数据不断涌入,按照一分钟切片,每个一分钟内部的数据是连续的(连续数据流),而一分钟与一分钟的切片却是相互独立的(离散流)。


  • DStream 是 Spark Streaming 特有的数据类型


  • Spark 2.3.1 开始延迟1毫秒(之前约100毫秒)


  • Each micro-batch is an RDD – can share code between batch and streaming


四、工作原理


4.1 Streaming Context


Streaming Context consumes a stream of data in Spark.


from pyspark import SparkContext
from pyspark.streaming import StreamingContext
# Create a local StreamingContext with two working threads and a batch interval of 2 seconds
# local[2] – spark executor runs on 2 cores.
sc = StreamingContext( SparkContext("local[2]", "NetWordCount"), 2 )
# ….
sc.start()


image.png


  • JVM中只能激活一个StreamingContext。


  • StreamingContext不能在停止后重新启动,但是可以重新创建。


4.2 DStream


DStream 离散流由一系列连续的RDD组成,每个RDD都包含了确定时间间隔内的数据:


image.png


Spark 的 RDD 可以理解为空间维度,Dstream 的 RDD 理解为在空间维度上又加了个时间维度。


例如上图,数据流进切分为四个分片,内部处理逻辑都是相同的,只是时间维度不同。



# Create a local StreamingContext with two working threads and a batch interval of 2 seconds
sc = StreamingContext( SparkContext("local[2]", "NetWordCount"), 2 )
lines = ssc.socketTextStream("localhost", 3333) # Create a DStream
words = lines.flatMap(lambda line: line.split(" ")) # Split each line into words
pairs = words.map(lambda word: (word, 1)) # Count each word in each batch
wordCounts = pairs.reduceByKey(lambda x, y: x + y)
ssc.start() # Start the computation
ssc.awaitTermination() # Wait for the computation to terminate


Spark 与 Spark Streaming 区别:


Spark -> RDD:transformation action + RDD DAG


Spark Streaming -> Dstream:transformation output(它不能让数据在中间激活,必须保证数据有输入有输出) + DStreamGraph


任何对DStream的操作都会转变为对底层RDD的操作(通过算子):


image.png


总结:将连续的数据持久化,离散化,然后进行批量处理。


  • 持久化:接收到的数据暂存。


为什么持久化:做容错的,当数据流出错了,因为没有得到计算,需要把数据从源头进行回溯,暂存的数据可以进行恢复。


  • 离散化:按时间分片,形成处理单元。


分片处理:分批处理。


4.3 Input DStreams & Receivers


Input DStreams represent the stream of input data received from streaming sources.

每个Input DStream(文件流除外)都与 Receiver 接收方对象相关联,接收方对象从源接收数据并将其存储在Spark内存中进行处理。

可以在相同的 StreamingContext 下创建多个 Input DStreams


image.png


五、DStream 操作


1.1 普通的转换操作:map、flatMap、flter、union、count、join等


1.2 transform(func)操作:允许DStream 上应用任意RDD-to-RDD函数


1.3 updateStateByKey操作:


1.4 窗口转换操作: 允许你通过滑动窗口对数据进行转换,如countByWindow、 reduceByKeyAndWindow等,(批处理间隔、窗口间隔和滑动间隔)


2.输出操作:允许DStream的数据被输出到外部系统,如数据库或文件系统,有print()、foreachRDD(func)、saveAsTextFiles()、 saveAsHadoopFiles()等


3.持久化:通过persist()方法将数据流存放在内存中,有利于高效的迭代运算


六、Spark Streaming 架构


image.png


Master:记录Dstream之间的依赖关系或者血缘关系,并负责任务调度以生成新的RDD


Worker:从网络接收数据,存储并执行RDD计算


Client:负责向Spark Streaming中灌入数据


调度:按照时间触发。


Master:维护了DStream Graph这张图。(不是节点级别的,是任务级别的)


Worker:按照图去执行。


Worker 里面有个重要的角色:receiver,接收外部数据流,然后数据流通过 receiver 传入整个 Spark Streaming 内部( receiver 最终把数据流包装成 Spark Streaming 能处理的格式)


receiver:接收器,接收不同的数据源,进行针对性的获取,Spark Streaming 也提供了不同的接收器分布在不同的节点上,每个接收器都是一个特定的进程,每个节点接收一部分作为输入。,receiver接受完不马上做计算,先存储到它的内部缓存区。因为Streaming 是按照时间不断的分片,所以需要等待,一旦定时器到时间了,缓冲区就会把数据转换成数据块block(缓冲区的作用:按照用户定义的时间间隔切割),然后把数据块放到一个队列里面去,然后Block manager从队列中把数据块拿出来,把数据块转换成一个spark能处理的数据块。


为什么是一个进程?


container -> Executor 所以是一个进程


Spark Streaming 作业提交:


• Network Input Tracker:跟踪每一个网络received数据,并且将其映射到相应的input Dstream上


• Job Scheduler:周期性的访问DStream Graph并生成Spark Job,将其交给Job Manager执行


• Job Manager:获取任务队列,并执行Spark任务


Spark Streaming 窗口操作:


• Spark 提供了一组窗口操作,通过滑动窗口技术对大规模数据的增量更新进行统计分析


• Window Operation:定时进行一定时间段内的数据处理


image.png


任何基于窗口操作需要指定两个参数:


  • 窗口总长度(window length):你想计算多长时间的数据


  • 滑动时间间隔(slide interval):你每多长时间去更新一次


七、Key Points for InputStream


  • When running Spark-Streaming program locally, always use

“local[n]” as the master URL, where n > number of

receivers;


  • When running on a cluster, the number of cores allocated to

the Spark Streaming application must be more than the

number of receivers.


八、Sources of Spark Streaming


  • Spark StreamingContext has the following built-in Support for creating

Streaming Sources:


def textFileStream(directory: String): DStream[String]
Process files in directory – hdfs://namenode:8020/logs/
def socketTextStream(hostname: String, port: Int, storageLevel: StorageLevel
StorageLevel.MEMORY_AND_DISK_SER_2): ReceiverInputDStream[String]
Create an input stream from a TCP source


  • Flume Sink for Spark Streaming


val ds = FlumeUtils.createPollingStream(streamCtx, [sink hostname], [sink port]);
  • Kafka Consumer for Spark Streaming


val ds = KafkaUtils.createStream(streamCtx, zooKeeper, consumerGrp, topicMap);


九、Spark Streaming 能做什么


目前而言SparkStreaming 主要支持以下三种业务场景


1、无状态操作:只关注当前批次中的实时数据,例如:


  • 商机标题分类,分类http请求端 -> kafka -> Spark Streaming -> http请求端Map -> 响应结果


  • 网库Nginx访问日志收集,flume->kafka -> Spark Streaming -> hive/hdfs


  • 数据同步,网库主站数据通过“主站”->kafka->Spark Streaming -> hive/hdfs


2、有状态操作:对有状态的DStream进行操作时,需要依赖之前的数据 除了当前新生成的小批次数据,但还需要用到以前所生成的所有的历史数据。新生成的数据与历史数据合并成一份流水表的全量数据例如:


  • 实时统计网库各个站点总的访问量


  • 实时统计网库每个商品的总浏览量,交易量,交易额


3、窗口操作:定时对指定时间段范围内的DStream数据进行操作,例如:


  • 网库主站的恶意访问、爬虫,每10分钟统计30分钟内访问次数最多的用户

目录
相关文章
|
2月前
|
存储 SQL 关系型数据库
MySQL进阶突击系列(03) MySQL架构原理solo九魂17环连问 | 给大厂面试官的一封信
本文介绍了MySQL架构原理、存储引擎和索引的相关知识点,涵盖查询和更新SQL的执行过程、MySQL各组件的作用、存储引擎的类型及特性、索引的建立和使用原则,以及二叉树、平衡二叉树和B树的区别。通过这些内容,帮助读者深入了解MySQL的工作机制,提高数据库管理和优化能力。
|
2月前
|
人工智能 前端开发 编译器
【AI系统】LLVM 架构设计和原理
本文介绍了LLVM的诞生背景及其与GCC的区别,重点阐述了LLVM的架构特点,包括其组件独立性、中间表示(IR)的优势及整体架构。通过Clang+LLVM的实际编译案例,展示了从C代码到可执行文件的全过程,突显了LLVM在编译器领域的创新与优势。
122 3
|
3月前
|
运维 持续交付 云计算
深入解析云计算中的微服务架构:原理、优势与实践
深入解析云计算中的微服务架构:原理、优势与实践
122 3
|
27天前
|
Java Linux C语言
《docker基础篇:2.Docker安装》包括前提说明、Docker的基本组成、Docker平台架构图解(架构版)、安装步骤、阿里云镜像加速、永远的HelloWorld、底层原理
《docker基础篇:2.Docker安装》包括前提说明、Docker的基本组成、Docker平台架构图解(架构版)、安装步骤、阿里云镜像加速、永远的HelloWorld、底层原理
313 89
|
1天前
|
存储 SQL 缓存
MySQL原理简介—2.InnoDB架构原理和执行流程
本文介绍了MySQL中更新语句的执行流程及其背后的机制,主要包括: 1. **更新语句的执行流程**:从SQL解析到执行器调用InnoDB存储引擎接口。 2. **Buffer Pool缓冲池**:缓存磁盘数据,减少磁盘I/O。 3. **Undo日志**:记录更新前的数据,支持事务回滚。 4. **Redo日志**:确保事务持久性,防止宕机导致的数据丢失。 5. **Binlog日志**:记录逻辑操作,用于数据恢复和主从复制。 6. **事务提交机制**:包括redo日志和binlog日志的刷盘策略,确保数据一致性。 7. **后台IO线程**:将内存中的脏数据异步刷入磁盘。
|
19天前
|
存储 缓存 监控
ClickHouse 架构原理及核心特性详解
ClickHouse 是由 Yandex 开发的开源列式数据库,专为 OLAP 场景设计,支持高效的大数据分析。其核心特性包括列式存储、字段压缩、丰富的数据类型、向量化执行和分布式查询。ClickHouse 通过多种表引擎(如 MergeTree、ReplacingMergeTree、SummingMergeTree)优化了数据写入和查询性能,适用于电商数据分析、日志分析等场景。然而,它在事务处理、单条数据更新删除及内存占用方面存在不足。
169 21
|
19天前
|
存储 消息中间件 druid
Druid 架构原理及核心特性详解
Druid 是一个分布式、支持实时多维OLAP分析的列式存储数据处理系统,适用于高速实时数据读取和灵活的多维数据分析。它通过Segment、Datasource等元数据概念管理数据,并依赖Zookeeper、Hadoop和Kafka等组件实现高可用性和扩展性。Druid采用列式存储、并行计算和预计算等技术优化查询性能,支持离线和实时数据分析。尽管其存储成本较高且查询语言功能有限,但在大数据实时分析领域表现出色。
72 19
|
19天前
|
存储 SQL NoSQL
Doris 架构原理及核心特性详解
Doris 是百度内部孵化的OLAP项目,现已开源并广泛应用。它采用MPP架构、向量化执行引擎和列存储技术,提供高性能、易用性和实时数据处理能力。系统由FE(管理节点)和BE(计算与存储节点)组成,支持水平扩展和高可用性。Doris 适用于海量数据分析,尤其在电商、游戏等行业表现出色,但资源消耗较大,复杂查询优化有局限性,生态集成度有待提高。
61 15
|
16天前
|
Java 网络安全 开发工具
Git进阶笔记系列(01)Git核心架构原理 | 常用命令实战集合
通过本文,读者可以深入了解Git的核心概念和实际操作技巧,提升版本管理能力。
|
1月前
|
机器学习/深度学习 算法 PyTorch
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
软演员-评论家算法(Soft Actor-Critic, SAC)是深度强化学习领域的重要进展,基于最大熵框架优化策略,在探索与利用之间实现动态平衡。SAC通过双Q网络设计和自适应温度参数,提升了训练稳定性和样本效率。本文详细解析了SAC的数学原理、网络架构及PyTorch实现,涵盖演员网络的动作采样与对数概率计算、评论家网络的Q值估计及其损失函数,并介绍了完整的SAC智能体实现流程。SAC在连续动作空间中表现出色,具有高样本效率和稳定的训练过程,适合实际应用场景。
151 7
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现

热门文章

最新文章