阶段练习_总结 | 学习笔记

简介: 快速学习 阶段练习_总结

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段阶段练习_总结】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11989


阶段练习_总结


思考:整个 spark 编写的一般套路应该是怎样的?

总结套路,注意代码,第一步创建 spark context,也就是进行环境的处理。

第二步创建 RDD ,创建 RDD 有很多种方式,当前阶段练习是采取读取文件的方式,但是也可以使用本地集合去创建,第三步处理 RDD ,也就是使用算子的步骤,会使用很多算子。然后行动去得到结果,就是调用 firstTake API

RDD 整体使用步骤:

创建 RDD

两种方式:

Sc.parallelize() //本地集合

Sc.textFile()//读取文件

转换算子

使用 textfile 读取文件时,应该对单值的数据进行处理。也就是,拿到一整串字符串要拆分,然后让他具有一些规律生成,第一步是要针对单值的数据进行转换算子操作。接下来单值数据生成 keyvideo  以后,就可以针对于  KV 使用reducebykey 的算法进行统计。

行动算子

first take,这样的算子来进行具体代码的执行。

image.png

相关文章
|
3月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
471 0
|
前端开发 网络协议
Netty实战巅峰:从零构建高性能IM即时通讯系统,解锁并发通信新境界
【8月更文挑战第3天】Netty是一款高性能、异步事件驱动的网络框架,适用于开发高并发网络应用,如即时通讯(IM)系统。本文将指导你利用Netty从零构建高性能IM程序,介绍Netty基础及服务器/客户端设计。服务器端使用`ServerBootstrap`启动,客户端通过`Bootstrap`连接服务器。示例展示了简单的服务器启动过程。通过深入学习,可进一步实现用户认证等功能,打造出更完善的IM系统。
496 1
|
存储 运维 安全
Greenplum闭源?平滑迁移到 AnalyticDB 开启Data+AI新范式
知名开源 MPP 数据库 Greenplum 由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越,并在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。
59635 3
|
SQL 关系型数据库 MySQL
使用mysql数据库的binlog应对故障
【6月更文挑战第1天】本文介绍`mysql的 binlog`工具用于解析MySQL的二进制日志,转换为可执行的SQL语句,主要用于数据库主从复制和增量恢复。定期备份和binlog推送能实现故障时的数据恢复。
571 9
使用mysql数据库的binlog应对故障
|
机器学习/深度学习 人工智能 安全
云上智能风控:重塑金融安全的智能屏障
灵活性:系统具备良好的灵活性和可扩展性,能够根据业务需求进行功能扩展和升级。 成本节约:通过自动化和智能化的方式降低人工成本,提高风控效率的同时减少不必要的开支。 4.2 未来展望 随着技术的不断进步和市场的不断发展,云上智能风控将迎来更加广阔的发展前景。未来,云上智能风控系统将进一步优化算法模型和技术架构,提高风险识别的准确性和效率;
605 7
|
关系型数据库 分布式数据库 数据库
PolarDB产品使用问题之是否支持分库分表创建数据库
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
前端开发
LayUi+SpringBoot+Mybatis:打造高效增删改查分页系统
LayUi+SpringBoot+Mybatis:打造高效增删改查分页系统
376 0
|
XML 安全 Shell
SSH 密码暴力破解及防御实战_2 | 学习笔记
快速学习 SSH 密码暴力破解及防御实战_2
880 0
SSH 密码暴力破解及防御实战_2 | 学习笔记
|
人工智能 自然语言处理 搜索推荐
元宇宙与人工智能之间的关系紧密而复杂,它们相互影响、相互促进,共同推动了科技的进步和发展。以下是对这两者关系的详细分析:
元宇宙,融合扩展现实、数字孪生和区块链,是虚实相融的互联网新形态,具有同步、开源、永续和闭环经济特点。人工智能则通过模拟人类智能进行复杂任务处理。在元宇宙中,AI创建并管理虚拟环境,生成内容,提供智能交互,如虚拟助手。元宇宙对AI的需求包括大数据处理、智能决策和个性化服务。两者相互促进,AI推动元宇宙体验提升,元宇宙为AI提供应用舞台,共同驱动科技前进。
|
安全 数据安全/隐私保护
如何设置多因素认证,但不使用短信验证码?
【5月更文挑战第14天】如何设置多因素认证,但不使用短信验证码?
679 0