阶段练习_需求介绍和明确步骤 | 学习笔记

简介: 快速学习 阶段练习_需求介绍和明确步骤

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段阶段练习_需求介绍和明确步骤】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11987


阶段练习_需求介绍和明确步骤


内容介绍

一、前言

二、阶段介绍

三、阶段练习


一、前言

经过前面的学习,现在对 Spark 有了较多的了解,也对 Spark core

做了很多说明,它最重要的组成部分是 RDD ,我们讲解 Spark core

的过程,其实就是讲解 RDD 的过程。

Spark core 大致分为两个大阶段,第一个阶段是入门讲解,第二阶段

是入门细节的补充说明,以及使用介绍,也就是扩展阶段。


二、阶段介绍

第一大阶段分为四个小部分,第一部分是 Spark 的概述,简单说明了

Spark 是由哪四部分组成的。第二部分是搭建 Spark 集群。第三部分

是编写 Spark 入门案例,在入门案例中写了一个词频统计,相当于是

大数据领域当中的 hello world 。在词频统计案例中,有很多细节在

第四部分, RDD 的入门介绍中进行了一些补充说明。

第二大阶段是 SparkCore 的扩展内容,到此为止,已经讲解了两个部分的内容。第一部分是深入了解 RDD ,对 RDD 有了更深层次的定义,包括 RDD 的特性和五大属性。

第二部分是了解 RDD 算子,RDD 算子分为两大类,

Transformation 算子和 Action 算子,前者是惰性的,需要后者去执行。然后简单介绍了 Spark 对于 KV 型数据和数字型数据的支持。


三、阶段练习

在了解 Spark 原理之前,还有一小部分内容跟大家介绍,即阶段练习和 RDD 的特性说明。在学习了很多算子之后,现在是否能理解整个 Spark 的使用规则。在阶段练习这一部分,将解决大家使用 Spark 时产生的困惑,希望会对大家有所帮助。

第一步,看一下数据集组成,即数据集的格式;第二步明确需求;第三步明确步骤;第四步编码,这是一整个过程。

进入数据集,这个数据集是一个 csv 的格式,所以可以直接使用 excel

打开,数据集的第一行是字符串。 csv 类似于一个关系表,第一列称

之为整个数据值的编号,第二列是年份,第三列是月份,第四列是日期,

第五列小时,第六列是季节,第七、八、九、十列是不同地区的 PM 值,

后面是一些比较专业的参数。

这是这个数据集的组成,是201011号至20151231号,

北京地区 PM 值的统计和记录。需求是按月统计 PM 值,求每个月

PM 的总值和平均值,最大 PM 值和最小 PM 值的月份。然后我们确

认一下步骤,读取文件,抽取数据集中对我们有用的数据,根据需求进

reduceByKey ,统计 PM 值,进行排序,获取最终结果。

1.png

这就是整个的步骤

相关文章
使用OKCC呼叫中心系统的客户体验分析
案例1.某教培公司 招生旺季到来,很多教育机构都是以电话形式进行招生,回访学生家长,作为电销人员,每天的工作量特别特别大,号码需要一个一个手动输入再拨打,而且绝大部分都还是无效的,如空号、黑名单、没接通、没意向等等。 用我们OKCC人工坐席外呼系统就可以为电销人员一键呼叫,只需批量导入客户资料,无需手动输入号码,还可根据自身业务需求,灵活选取合适的呼叫方式。支持智能二次检测号码质量,过滤空号、错号、接通意向低等无效号码,提升外呼效率及员工积极性。
|
JavaScript Java 测试技术
基于springboot+vue.js+uniapp的客户关系管理系统附带文章源码部署视频讲解等
基于springboot+vue.js+uniapp的客户关系管理系统附带文章源码部署视频讲解等
298 2
|
9月前
|
SQL 关系型数据库 MySQL
MySQL:CTE 通用表达式
CTE(通用表表达式)为处理复杂查询提供了强大的工具。通过普通CTE,可以简化查询逻辑,提高可读性;通过递归CTE,可以优雅地处理层级结构数据。掌握CTE的使用,对于提升SQL查询能力和优化数据库操作有着重要意义。希望本文能帮助你更好地理解和使用MySQL中的CTE,提高工作效率和代码质量。
354 7
|
存储 对象存储 索引
对象存储OSS-m3u8视频私有权限
当上传至私有存储桶的M3U8视频缺少签名信息时,会导致播放失败(403错误)。解决方案是使用OSS的动态签名机制,在首次访问M3U8文件时,通过在URL中添加`x-oss-process=hls/sign`参数,OSS将自动对所有TS切片地址进行签名,确保视频正常播放。
949 2
|
消息中间件 数据安全/隐私保护 RocketMQ
消息队列 MQ使用问题之遇到消费速度是固定的并且导致了堆积,该怎么办
消息队列(MQ)是一种用于异步通信和解耦的应用程序间消息传递的服务,广泛应用于分布式系统中。针对不同的MQ产品,如阿里云的RocketMQ、RabbitMQ等,它们在实现上述场景时可能会有不同的特性和优势,比如RocketMQ强调高吞吐量、低延迟和高可用性,适合大规模分布式系统;而RabbitMQ则以其灵活的路由规则和丰富的协议支持受到青睐。下面是一些常见的消息队列MQ产品的使用场景合集,这些场景涵盖了多种行业和业务需求。
|
安全 网络协议 网络安全
【题目】2023年国赛信息安全管理与评估正式赛任务书-模块1
【题目】2023年国赛信息安全管理与评估正式赛任务书-模块1
【题目】2023年国赛信息安全管理与评估正式赛任务书-模块1
|
人工智能 搜索推荐 固态存储
|
存储 分布式计算 Apache
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
Apache Paimon 和 Apache Hudi 作为数据湖存储格式,有着高吞吐的写入和低延迟的查询性能,是构建数据湖的常用组件。本文在阿里云EMR上,针对数据实时入湖场景,对 Paimon 和 Hudi 的性能进行比对,并分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。
65618 1
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
|
存储 编解码 安全
探索FFmpeg复用:深入理解媒体数据的组织与封装(二)
探索FFmpeg复用:深入理解媒体数据的组织与封装
329 0
|
JavaScript 前端开发
【vue】 Tinymce 数据 回显问题 | 第一次正常回显后面,显示空白bug不能编辑
【vue】 Tinymce 数据 回显问题 | 第一次正常回显后面,显示空白bug不能编辑
1211 0