文档备案控制台

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 视频 > 正文

Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析

发布者：Dev-Talk 2020-10-26 15:52:00 2544

Dev-Talk

+关注

视频介绍

Spark Shuffle RPMem扩展提供了一个基于PMem 和RDMA 来加速Shuffle的方案，它采用PMem 作为Shuffle的存储介质，利用PMDK 用户态编程库进行数据读写，减小用户态、内核态切换与文件系统开销；用基于RDMA网络协议异构的传输层实现高性能数据传输；还将RDMA直接注册在PMem上，减少内存拷贝。
本次直播介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。

讲师介绍：

张建，英特尔亚太研发有限公司大数据部门的软件工程经理，专注于大数据和机器学习中存储方案优化

关键词：

数据分析研究

技术数据分析

医疗数据分析

大数据数据分析

构建数据分析data agent开发实践

相关视频

大数据与机器学习

开源大数据平台 E-MapReduce

+关注

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

热门文章

热门讨论

展开全部

展开全部

+关注

Dev-Talk

文章

问答

视频

来源圈子

更多

Apache Spark 中国技术社区

4460

邀请你加入钉钉群聊Apache Spark中国技术交流社区，点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,X7S/0/QcrLMkK7QZ5sw2oTvoYW49u0g5dvGu7PW+sm4=&_dt_no_comment=1&origin=11。</br> 微信公众号：Apache Spark技术交流社区为 Spark 爱好者提供一个交流技术和传递资讯的平台，在这里你可以掌握大数据计算领域最前沿的资讯，可以与 Spark 技术大牛面对面交流，还有不定期社区福利领取哟～

+ 订阅

相关产品

开源大数据平台 E-MapReduce

文档详情产品详情

相关文章

更多

Spark2.4.0源码分析之WorldCount Stage提交(DAGScheduler)(六) Spark2.4.0源码分析之WorldCount Stage提交顺序(DAGScheduler)(五) Spark2.4.0源码分析之WorldCount Stage划分(DAGScheduler)(四) Spark通过YARN提交任务不成功（包含YARN cluster和YARN client) 从源码角度看Spark on yarn client & cluster模式的本质区别英特尔开源BigDL，可直接在Spark框架下运行深度学习 Intel 开源 BigDL，基于 Spark 的深度学习库深入理解Spark：核心思想与源码分析. 3.7　创建和启动DAGScheduler Spark源码分析 – DAGScheduler 【Spark Summit East 2017】使用Kafka Connect和Spark Streaming构建实时数据管道