文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

2020-10-26 4651

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。

主题：

Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析

时间：

10月29日 19:00

观看方式：

扫描下方二维码进钉钉群
或者登陆直播间（即回看链接）
https://developer.aliyun.com/live/245610

讲师：

张建，英特尔亚太研发有限公司大数据部门的软件工程经理，专注于大数据和机器学习中存储方案优化

议题介绍：

Spark Shuffle RPMem扩展提供了一个基于PMem 和RDMA 来加速Shuffle的方案，它采用PMem 作为Shuffle的存储介质，利用PMDK 用户态编程库进行数据读写，减小用户态、内核态切换与文件系统开销；用基于RDMA网络协议异构的传输层实现高性能数据传输；还将RDMA直接注册在PMem上，减少内存拷贝。
本次直播介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。
10.29直播.png

文章标签：

开源大数据平台 E-MapReduce

机器学习/深度学习

数据挖掘

分布式计算

网络协议

RDMA

Spark

存储

大数据

关键词：

apache spark shuffle

RDMA内存

apache spark社区

社区apache spark

内存扩展

阿里云E-MapReduce团队

目录

相关文章

爱你三千遍斯塔克

|

XML Ubuntu Linux

部署08---扩展-Win10配置WSL(Ubuntu)环境，WSL系统是什么意思，是Windows系统上的一个子系统， xml的一大特点是直链系统，直接链接你的CPU，硬盘和内存，如何用 WSL部署

部署08---扩展-Win10配置WSL(Ubuntu)环境，WSL系统是什么意思，是Windows系统上的一个子系统， xml的一大特点是直链系统，直接链接你的CPU，硬盘和内存，如何用 WSL部署

爱你三千遍斯塔克

470 0 0

游客tvgb6vci6chtq

|

缓存分布式计算资源调度

Spark 与 MapReduce 的 Shuffle 的区别？

MapReduce 和 Spark 在 Shuffle 过程中有显著区别。MapReduce 采用两阶段模型，中间数据写入磁盘，I/O 开销大；而 Spark 使用基于内存的多阶段执行模型，支持操作合并和内存缓存，减少 I/O。Spark 的 RDD 转换优化减少了 Shuffle 次数，提升了性能。此外，Spark 通过 lineage 实现容错，资源管理更灵活，整体大数据处理效率更高。

游客tvgb6vci6chtq

975 6 7

人物我非-32022

|

分布式计算监控大数据

如何优化Spark中的shuffle操作？

【10月更文挑战第18天】

人物我非-32022

1135 1 1

武子康

|

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

709 0 0

武子康

|

SQL 分布式计算算法

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

武子康

341 0 0

杰哥在此

|

设计模式存储安全

Java面试题：设计一个线程安全的单例类并解释其内存占用情况?使用Java多线程工具类实现一个高效的线程池，并解释其背后的原理。结合观察者模式与Java并发框架，设计一个可扩展的事件处理系统

Java面试题：设计一个线程安全的单例类并解释其内存占用情况?使用Java多线程工具类实现一个高效的线程池，并解释其背后的原理。结合观察者模式与Java并发框架，设计一个可扩展的事件处理系统

杰哥在此

498 1 1

vohelon

|

分布式计算数据挖掘数据处理

Spark如何支持实时数据分析？

【6月更文挑战第16天】Spark如何支持实时数据分析？

vohelon

534 3 3

杰哥在此

|

设计模式存储缓存

Java面试题：结合建造者模式与内存优化，设计一个可扩展的高性能对象创建框架？利用多线程工具类与并发框架，实现一个高并发的分布式任务调度系统？设计一个高性能的实时事件通知系统

Java面试题：结合建造者模式与内存优化，设计一个可扩展的高性能对象创建框架？利用多线程工具类与并发框架，实现一个高并发的分布式任务调度系统？设计一个高性能的实时事件通知系统

杰哥在此

341 0 0

杰哥在此

|

设计模式存储缓存

Java面试题：结合单例模式与Java内存模型，设计一个线程安全的单例类？使用内存屏障与Java并发工具类，实现一个高效的并发缓存系统？结合观察者模式与Java并发框架，设计一个可扩展的事件处理系统

Java面试题：结合单例模式与Java内存模型，设计一个线程安全的单例类？使用内存屏障与Java并发工具类，实现一个高效的并发缓存系统？结合观察者模式与Java并发框架，设计一个可扩展的事件处理系统

杰哥在此

196 0 0

孙玉洁-47170

|

分布式计算 Spark 索引

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark学习---day07、Spark内核（源码提交流程、任务执行）

孙玉洁-47170

336 2 2

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

分布式快照算法: Chandy-Lamport

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS解析 - 云上大数据高性能数据湖存储方案

5W1H(六何分析法)全景洞察大数据

开源大数据周刊-第90期

Apache Spark 3.0 将内置支持 GPU 调度

开源大数据周刊-第66期

HBase ThriftServer Kerberos认证

阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎

E-MapReduce 4.0产品新特性

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

诗悦游戏基于DLF与EMR StarRocks降本38%

基于DLF构建实时数据湖

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

AnalyticDB Zero-ETL：简单易用零成本的一站式数据分析

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！