Sparkstreaming 介绍-流计算和批计算的区别 | 学习笔记

简介: 快速学习 Sparkstreaming 介绍-流计算和批计算的区别

开发者学堂课程【大数据Spark2020版(知识精讲与实战演练)第五阶段:Sparkstreaming 介绍-流计算和批计算的区别 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/692/detail/12126


Sparkstreaming 介绍-流计算和批计算的区别

内容介绍

一、课堂目标

二、批量计算

三、流计算

四、流计算和批计算的区别

 

一、课堂目标

通过上节课的学习,流计算的应用场景带来两大要求,一、数据要快速处理,二、同时计算量巨大,接下来通过讲解流计算与批量计算的区别,说明流计算特殊的应用场景,明白何时用批量计算或者流计算

 

二、批量计算

批量计算整体流程如图:

image.png

使用 SPARK SQL 去吧 HDFS 等上的文件或者数据取出来

通过 SPARK 进行处理,然后落地在 hdfs 上

可以提供 hive 对 HDFS 的数据进行处理

往往读出来的数据较大,存在调度的时间,可能无法及时返回结果,

传统的计算方式,是无法快速计算数据结果的,Hdfs 的数据此时存在边界,数据量是固定的。

往往批量计算是为了形成一个数据仓库,对数据仓库进行查询,获取一些运行指标与特殊数据处理。

 

三、流计算

流计算和批量计算区别显著,如工业大数据

以工业应用场景为例

如图:

image.png

三台设备,数据以时间的形式源源不断地产生,一直产生,一直处理

此时数据没有边界,所以 SPARK 无法进行数据处理

此时数据往往放到过滤用的队列当中,如 kafka

kafka 是非常快速地数列工具,有许多磁盘上的优化,保证了数据的快速对接。

处理完成后以后,将数据落地到 Hbase 当中,Sparkstreaming

获取规律,结果,指标等信息,进行存储

再通过外部的 webui,对 HBease 进行处理

 

四、流计算和批计算的区别

1. 批量计算也叫做离线计算,数据有边界,有大小

2.流计算的数据是不断产生的

3.批量计算往往计算全量数据

4.流计算要求快速处理,所以处理的是增量数据

相关文章
|
7月前
|
分布式计算 大数据 Apache
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
184 0
|
5月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用问题之在Flink算子内部使用异步IO可以通过什么办法实现
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
消息中间件 存储 Kafka
实时计算 Flink版产品使用问题之有5个并行度,但只有其中1个并行度有数据,是什么导致的
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
7月前
|
安全 Oracle 关系型数据库
实时计算 Flink版产品使用合集之读取增量的时候, 只有一个并行度有用是嘛
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
7月前
|
负载均衡 算法 大数据
[flink 实时流基础] 转换算子
[flink 实时流基础] 转换算子
|
7月前
|
消息中间件 关系型数据库 MySQL
[flink 实时流基础] 输出算子(Sink)
[flink 实时流基础] 输出算子(Sink)
214 1
|
7月前
|
SQL 监控 Java
Apache Hudi 流转批 场景实践
Apache Hudi 流转批 场景实践
80 2
|
7月前
|
SQL 关系型数据库 MySQL
Flink输出问题之flink侧输出算子堵住如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
7月前
|
消息中间件 分布式计算 Java
流计算与批处理的区别是什么?请举例说明。
流计算与批处理的区别是什么?请举例说明。
112 0
|
7月前
|
传感器 监控 Java
流计算中的数据延迟是什么?为什么它在流计算中很重要?
流计算中的数据延迟是什么?为什么它在流计算中很重要?
196 0