RDD 入门_SparkContext|学习笔记

简介: 快速学习 RDD 入门_SparkContext

开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段RDD 入门_SparkContext】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/688/detail/11951


RDD 入门_SparkContext

课题引入:

RDD 代码:

了解 rdd 的创建方式 (new object ()),rdd 表示数据集,弹性式和分布式的。

使用 spark 提供的 API 创建 rdd 类似于动态工厂、动态方法。需先了解 sparkcore 入口,被称为 sparkcontext。


通过本地集合创建 RDD

方法一:

wordcount 案例中读取 HDFS 文件,创建 rdd ;

方法二:

通过外部数据创建 rdd ;

方法三:

通过 rdd 衍生新的 rdd。

image.png

具体了解如下:

程序入口 sparkcontext

val conf =new sparkconf( ).setmaster(“local[2]”)

val sc:sparkcontext =new sparkcontext(conf)

Sparkcontext 是 spark-core 的入口组件,是一个 spark 程序的入口,在 spark 0.x 版本就已经存在 sparkcontext ,是元老级的 API 。

如果把一个 spark 程序分为前后端,则服务端是可运行 spark 程序的集群,而 driver 是 spark 的前端,

在 driver 中 sparkcontext 是最主要的组件,也是 driver 在运行时首先会创建的组件,是 driver 的核心。

sparkcontext 从供应的 API 来看,主要作用是连接集群、创建 RDD、 累加器、广播变量等。

image.png

观察 sparkcontext 中的 API ,进入代码工具,先打开 mspark 文件,其中的 dependency 部分中 jumit 的文件包,使用 jumit 可以在方法上编写测试。

首先把 object 改为 class ,编写一个方法进行 sparkcontext 的学习,即:

@Test(切记导入包)

def sparkcontext():Unit ={

//1.sparkcontext 如何编写

//①创建 sparkconf

valconf=new sparkconf

().setMaster(“local[6]”).setAppName

(“spark_context”)

//②创建 sparkcontext

val sc= new sparkcontext(conf)

//sparkcontext 身为大入口 API ,应该能够创建 RDD, 并且设置参数,设置 jar 包。

sc. ...

//2.关闭 sparkcontext, 释放集群资源

}                                                    

相关文章
|
SQL 存储 大数据
数据仓库(10)数仓拉链表开发实例
拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。 维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。
594 13
数据仓库(10)数仓拉链表开发实例
|
缓存 Java API
JVM 四种引用和使用场景
在JDK 1.2之后,Java对引用的概念进行了扩充,将引用分为强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Weak Reference)、虚引用(Phantom Reference)四种,Java 4种引用的级别由高到低依次为:强引用 > 软引用 > 弱引用 > 虚引用。
241 0
|
存储 监控 Java
一篇文章带你搞懂SkyWalking调用链追踪框架
介绍了Skywalking的作用,安装方法,架构设计等等
一篇文章带你搞懂SkyWalking调用链追踪框架
VSPD虚拟串口软件安装及使用
VSPD虚拟串口软件安装及使用
4352 0
|
8月前
|
iOS开发 MacOS
Apple iWork (Pages、Numbers、Keynote) 14.4 - 文档、电子表格、演示文稿
Apple iWork (Pages、Numbers、Keynote) 14.4 - 文档、电子表格、演示文稿
181 1
Apple iWork (Pages、Numbers、Keynote) 14.4 - 文档、电子表格、演示文稿
|
机器学习/深度学习 存储 自然语言处理
从理论到实践:如何使用长短期记忆网络(LSTM)改善自然语言处理任务
【10月更文挑战第7天】随着深度学习技术的发展,循环神经网络(RNNs)及其变体,特别是长短期记忆网络(LSTMs),已经成为处理序列数据的强大工具。在自然语言处理(NLP)领域,LSTM因其能够捕捉文本中的长期依赖关系而变得尤为重要。本文将介绍LSTM的基本原理,并通过具体的代码示例来展示如何在实际的NLP任务中应用LSTM。
1255 4
|
数据采集 XML 数据格式
Python爬虫--xpath
Python爬虫--xpath
158 1
|
小程序 JavaScript
小程序 observers--组件访问页面钩子
小程序 observers--组件访问页面钩子
479 1
|
SQL 存储 关系型数据库