文档备案控制台

开发者社区大数据文章正文

[Spark][Python]获得 key,value形式的 RDD

2017-12-19 1268

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

[Spark][Python]获得 key,value形式的 RDD

[training@localhost ~]$ cat users.txt
user001 Fred Flintstone
user090 Bugs Bunny
user111 Harry Potter
[training@localhost ~]$ hdfs dfs -put users.txt
[training@localhost ~]$
[training@localhost ~]$
[training@localhost ~]$ hdfs dfs -cat users.txt
user001 Fred Flintstone <<<<<<<<<<<<<<<<<<, tab 符分隔
user090 Bugs Bunny
user111 Harry Potter
[training@localhost ~]$

user01 = sc.textFile("users.txt")

user02 = user01.map(lambda line : line.split("\t"))

In [16]: user02.take(3)
Out[16]:
[[u'user001', u'Fred Flintstone'],
[u'user090', u'Bugs Bunny'],
[u'user111', u'Harry Potter']]

user03 = user02.map(lambda fields: (fields[0],fields[1]))

user03.take(3)

Out[20]:
[(u'user001', u'Fred Flintstone'), <<<<<<<<<<<<<<<< 此处构筑了 key-value pair
(u'user090', u'Bugs Bunny'),
(u'user111', u'Harry Potter')]

本文转自健哥的数据花园博客园博客，原文链接：http://www.cnblogs.com/gaojian/p/008-Aggregating-Data-with-Pair-RDDs.html，如需转载请自行联系原作者

文章标签：

Python

分布式计算

Spark

关键词：

apache spark Python

apache spark rdd

Python key

Python value

Python spark

嗯哼9925

目录

相关文章

赵渝强老师

|

存储分布式计算并行计算

【赵渝强老师】Spark中的RDD

RDD（弹性分布式数据集）是Spark的核心数据模型，支持分布式并行计算。RDD由分区组成，每个分区由Spark Worker节点处理，具备自动容错、位置感知调度和缓存机制等特性。通过创建RDD，可以指定分区数量，并实现计算函数、依赖关系、分区器和优先位置列表等功能。视频讲解和示例代码进一步详细介绍了RDD的组成和特性。

赵渝强老师

548 0 0

蓝易云

|

存储 NoSQL 数据库连接

在Python程序中实现LevelDB的海量key的分批次扫描

通过本文的步骤，您可以在Python程序中实现对LevelDB海量key的分批次扫描。这样不仅能够有效地管理大规模数据，还可以避免一次性加载过多数据到内存中，提高程序的性能和稳定性。希望这篇指南能为您的开发工作提供实用的帮助。

蓝易云

398 28 28

赵渝强老师

|

分布式计算 Spark

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Spark RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指父RDD的每个分区最多被一个子RDD分区使用，如map、filter操作；宽依赖则指父RDD的每个分区被多个子RDD分区使用，如分组和某些join操作。窄依赖任务可在同一阶段完成，而宽依赖因Shuffle的存在需划分不同阶段执行。借助Spark Web Console可查看任务的DAG图及阶段划分。

赵渝强老师

751 15 15

赵渝强老师

|

存储缓存分布式计算

【赵渝强老师】Spark RDD的缓存机制

Spark RDD通过`persist`或`cache`方法可将计算结果缓存，但并非立即生效，而是在触发action时才缓存到内存中供重用。`cache`方法实际调用了`persist(StorageLevel.MEMORY_ONLY)`。RDD缓存可能因内存不足被删除，建议结合检查点机制保证容错。示例中，读取大文件并多次调用`count`，使用缓存后执行效率显著提升，最后一次计算仅耗时98ms。

赵渝强老师

445 0 0

【赵渝强老师】Spark RDD的缓存机制

武子康

|

分布式计算 Java 大数据

大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化

大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化

武子康

267 0 0

大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化

武子康

|

消息中间件分布式计算 Kafka

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

武子康

293 0 0

武子康

|

SQL 分布式计算大数据

大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL

大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL

武子康

449 0 0

武子康

|

SQL 分布式计算大数据

大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化

大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化

武子康

271 0 0

武子康

|

缓存分布式计算大数据

大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器（Scala编写）、RDD创建方式（一）

大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器（Scala编写）、RDD创建方式（一）

武子康

333 0 0

武子康

|

分布式计算算法大数据

大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器（Scala编写）、RDD创建方式（二）

大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器（Scala编写）、RDD创建方式（二）

武子康

320 0 0

热门文章

最新文章

Spark SQL性能优化

Spark SQL玩起来

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

【大数据】计算引擎：Spark核心概念

EMR Serverless Spark：一站式全托管湖仓分析利器

Spark编程实验一：Spark和Hadoop的安装使用

5月14日Apache Spark中国社区技术直播【Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏】

原创 | 以Spark性能调优为例，说说如何书写简历项目的技术难点

Spark Streaming中的操作函数分析

基于python大数据的台风灾害分析及预测系统

基于Python大数据的热门游戏推荐系统

基于python大数据的青少年网络使用情况分析及预测系统

2026版基于python大数据的电影分析可视化系统

基于Python大数据的的电商用户行为分析系统

基于python大数据技术的医疗数据分析与研究

基于python大数据深度学习的酒店评论文本情感分析系统

Python SQLAlchemy模块：从入门到实战的数据库操作指南

基于python大数据的的海洋气象数据可视化平台

基于Python大数据的主流汽车价格分析可视化系统

相关课程

更多

Python语言基础 - 列表、元组、字典、集合

Python语言基础 - 函数、面向对象、异常处理

Python网络编程

Python Web 框架 Flask 快速入门

Python Web 框架 Django 快速入门

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

推荐镜像

更多

python-release

下一篇

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎