【云计算与大数据技术】Spark的解析(图文解释 超详细必看)

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 【云计算与大数据技术】Spark的解析(图文解释 超详细必看)

一、Spark RDD

Spark是一个高性能的内存分布式计算框架,具备可扩展性,任务容错等特性,每个Spark应用都是由一个driver program 构成,该程序运行用户的 main函数 。

Spark提供的一个主要抽象就是 RDD(Resilient Distributed Datasets),这 是一个分布在集群中多节点上的数据集合,利用内存和磁盘作为存储介质。其中内存为主要数据存储对象,支持对该数据集合的并发操作,用户可以使用HDFS中的一个文件来创建一个RDD,可以控制RDD存放于内存中还是存储与磁盘。

RDD的设计目标是针对迭代式机器学习,每个RDD是只读的、不可更改的

创建RDD

有两种方式创建一个 RDD

在driver program 中并行化一个当前的数据集合

利用一个外部存储系统中的数据集合创建

二、Spark与MapReduce对比

Spark 作为新一代的大数据计算框架,针对的是迭代式计算、实时数据处理,要求处理的时间更少,与MapReduce对比整体反映如下

1: 在中间计算结果方面 - Spark基本把数据存放在内存中,只有在内存资源不够的时候才写到磁盘等存储介质中; 而 MapReduce计算过程中 Map任务产生的 计算结果存放到本地磁盘中

2:在计算模型方面 - Spark采用 DAG 图描述计算任务,Spark拥有更丰富的功能;MapReduce则只采用 Map和 Reduce两个函数,计算功能比较简单

3:在计算速度方面 - Spark 的计算速度更快

4:在容错方面 - Spark采用了和 MapReduce类似的方式,针对丢失和无法引用的RDD,Spark采用利用记录的transform,采取重新做已做过的 transform

5:在计算成本方面 - Spark是把RDD主要存放在内存存储介质中,则需要提供高容量的内存;而 MapReduce是面向磁盘的分布式计算框架,因此在成本考虑方面,Spark的计算成本高于 MapReduce计算框架

6:在简单易管理方面 - 目前Spark也在同一个集群上运行流处理 、批处理和机器学习,同时Spark也可以管理不同类型的负载。这些都是 MapReduce做不到的

三、Spark工作机制

开始深入探讨Spark的内部工作原理,具体包括Spark运行的DAG图、Partition、容错机制、缓存管理以及数据持久化

1:DAG工作图

DAG是有向无环图

当用户运行action操作的时候, Spark调度器检查RDD的lineage图,生成一个DAG图

为了Spark更加高效的调度和计算,RDD DAG中还包括宽依赖和窄依赖

窄依赖是父节点 RDD 中的分区最多只被子节点 RDD 中的一个分区使用

宽依赖是父节点RDD中的分区被子节点 RDD 中的多个子分区使用

采用DAG方式描述运行逻辑,可以描述更加复杂的运算功能,也有利于Spark调度器调度

2:分区Partition

Spark 执行每次操作transformation都会产生一个新的RDD,每个RDD是Partition分区的集合

在Spark中 ,操作的粒度是Partition分区

当前支持的分区方式有hash分区和范围(range)分区

3:Linedge容错方法

在容错方面有多种方式,包括数据复制以及记录修改日志

RDD本身是一个不可更改的数据集,Spark根据transformation和action构建它的操作图DAG

当执行任务的 Worker失败时完全可以通过操作图 DAG 获得之前执行的操作,进行重新计算

针对RDD的wide dependency,最有效的容错方式同样是采用checkpoint机制  ,但是当前,Spark并没有引入auto checkpointing机制

4:内存管理

旧版本Spark的内存空间分成了3块独立的区域,每块区域的内存容量是按照JVM堆大小的固定比例进行分配的

1:Execution - 在执行shuffle、join、sort和aggregation时,Execution用于缓存中间数据 默认为0.2

2:Storage - Storage主要用于缓存数据块以提高性能,同时也用于连续不断地广播或发送大的任务结果 默认为0.6

3:Other - 这部分内存用于存储运行系统本身需要加载的代码与元数据 默认为0.2

无论是哪个区域的内存,只要内存的使用量达到了上限,则内存中存储的数据就会被放入到硬盘中,从而清理出足够的内存空间,

5:数据读取

Spark最重要的一个功能是它可以通过各种操作 (operations)持久化(或者缓存 )一 个集合到内存中

这个能力使后续的动作速度更快(通常快10倍以上)。 对应迭代算法和快速的交互使用来说,缓存是一个关键的工具

用户可以利用不同的存储级别存储每一个被持久化的RDD  

四、数据读取

Spark支持多种外部数据源来创建 RDD,Hadoop支持的所有格式Spark都支持

包括HDFS Amazon S3 HBase等等

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
13天前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
55 4
|
2天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
20 1
|
4天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
24 2
|
5天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
21 1
|
1天前
|
存储 安全 网络安全
云计算与网络安全:技术融合的未来之路
【10月更文挑战第30天】在数字化浪潮的推动下,云计算已成为企业信息技术架构的核心。然而,随之而来的网络安全问题也日益凸显。本文将探讨云计算与网络安全的关系,分析云服务中的安全挑战,并提出相应的解决方案。我们将通过实例展示如何在云计算环境中实现网络安全的最佳实践,以期为读者提供一条技术融合的未来之路。
|
2天前
|
存储 安全 网络安全
云计算与网络安全:技术融合的双刃剑
【10月更文挑战第28天】本文旨在探索云计算在提供便利和效率的同时,如何成为网络安全领域的一大挑战。我们将从云服务的基本架构出发,分析其在信息安全中的关键作用,进而讨论当前网络安全面临的主要威胁及防御策略。文章还将探讨云计算环境中的数据保护、身份验证和访问控制机制,以及如何通过加密技术和安全协议来增强安全性。最后,我们将展望未来云计算与网络安全的发展趋势,并思考如何平衡技术创新与安全需求。
|
1天前
|
存储 安全 网络安全
云计算与网络安全的协同演进
【10月更文挑战第30天】 在数字时代的浪潮中,云计算和网络安全如同两条交织的线索,共同编织了一幅复杂而精致的技术画卷。云计算以其强大的数据处理能力和资源灵活性,为现代企业提供了前所未有的发展机遇。然而,随之而来的网络安全挑战也不容忽视。本文将深入探讨云计算与网络安全之间的相互作用,从云服务的基本概念出发,逐步剖析网络安全的重要性,并最终通过实际案例,揭示如何在享受云计算带来的便利的同时,确保数据的安全与隐私。
8 2
|
2天前
|
存储 安全 网络安全
云计算与网络安全:探索云服务中的信息安全技术
【10月更文挑战第29天】在数字化时代的浪潮中,云计算作为一种革命性的技术,正日益成为企业和个人数据存储与处理的首选方案。然而,随之而来的网络安全问题也愈发复杂和严峻。本文将深入探讨云计算服务中的网络安全挑战,并分析如何通过先进的信息安全技术来加强保护措施。我们将从云服务的基础知识出发,逐步深入到网络安全的各个方面,包括数据加密、身份验证、访问控制等关键技术的应用。通过理论与实践的结合,旨在为读者提供一套全面而实用的云计算安全指南。
|
2天前
|
存储 安全 网络安全
云计算与网络安全:保护数据的新策略
【10月更文挑战第28天】随着云计算的广泛应用,网络安全问题日益突出。本文将深入探讨云计算环境下的网络安全挑战,并提出有效的安全策略和措施。我们将分析云服务中的安全风险,探讨如何通过技术和管理措施来提升信息安全水平,包括加密技术、访问控制、安全审计等。此外,文章还将分享一些实用的代码示例,帮助读者更好地理解和应用这些安全策略。
|
6天前
|
安全 网络安全 API
云计算与网络安全:技术融合与挑战
【10月更文挑战第25天】在数字化时代,云计算作为信息技术的革新者,提供了强大的数据处理能力和灵活的资源管理。然而,随之而来的网络安全问题亦日益凸显,成为制约云计算发展的关键因素。本文深入探讨了云计算服务中的网络安全挑战,分析了信息安全技术的应对策略,并提出了相应的解决方案。通过实际案例分析,文章旨在为读者提供一个关于如何在享受云服务便利的同时确保数据安全的全面视角。

推荐镜像

更多