开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段:深入 rdd 初始案例】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/689/detail/11957
深入 rdd 初始案例
内容介绍:
一、第一步:明确思路
二、第二步:查看编码结构
三、第三步:明确编码步骤
四、第四步:编写代码
一、第一步:明确思路
大数据工程师一个重要工作之一是统计网站的访问日志,对于日志进行分析,能得到很多指标,来得到运营状况。
做一个案例,有一些步骤,在进行任何的数据分析时,应该先去明确自己的需求。明确数据集的格式,然后开始进行。此案例种,第一步是明确需求,需求是在访问日志中统计独立IP数,目的是为了了解哪些 IP 的访问次数最多。本质上去 top10。接下里查看数据结构,明确编码步骤,最后一步进行编码
二、第二步:查看编码结构
打开数据集,第一项是 IP 地址,第二项是访问时间,第三项是访问的 http ,是 get 、post、delate、cooperations是如何访问的,紧接着的部分是url。
将上述内容汇总之后,导入脑图之中,数据结构分为 IP、时间戳、http、method、url 等等。
三、第三步:明确编码步骤
第一步是取出 IP,生成一个只有IP的数据集,第二步:对 IP 进行简单清洗,第三步是统计 IP 出现次数,第四步按照IP 出现的次数进行排序,取出前十。
四、第四步:编写代码。
第一步:拷贝数据集,其次是创建文件。首先打开目录,找到 spark 目录,再找到 files 的目录,其中有一个access_log_samples,拷贝下此文件复制到 ideas 中,打开 idea,进行复制。复制完成后,会看到一个新文件去编写代码,此文件取名为:accesslogagg,创建完文件后,也将方法创建出来:def ipagg:
package cn.itcast.spark.rdd
import org.junit.Test
class AccessLogAgg
@Test
def ipAgg(): Unit=
)
