开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1642
内容
13
活动
5428
关注

JindoFS Fuse 支持

本次直播主要介绍如何利用FUSE的POSIX文件系统接口,像本地磁盘一样轻松使用大数据存储系统, 为云上AI场景提供了高效的数据访问手段。讲师介绍苏昆辉,花名抚月,阿里巴巴计算平台事业部 EMR 高级工程师, Apache HDFS committer. 目前从事开源大数据存储和优化方面的工作。

1451 0

用Analytics-Zoo实现基于深度学习的胸腔疾病AI诊疗辅助

讲师介绍龚奇源博士,英特尔机器学习专家。从事多年数据隐私和机器学习研究,2017年加入英特尔,目前负责Analytics-Zoo中ClusterServing、Streaming、OpenVINO和推理优化等工作。直播简介:本次分享主要介绍如何利用Analytics Zoo和NIH胸部X光影像数据集,在Apache Spark集群上实现基于深度学习的胸腔疾病分类,为医生提供端到端的胸腔疾病AI诊疗辅助。有兴趣的同学,可以提前关注此开源项目:https://github.com/intel-analytics/analytics-zoo

1631 0

大规模文件元数据下的耗时操作优化

本次直播主要介绍大数据生态中常见的元数据服务部署形态,并分析大规模文件元数据下在生产环境中可能遇到的问题,以及针对这些问题如何进行优化和调整。讲师介绍孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

1465 0

Hadoop Job committer 的演化和发展

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。讲师介绍李呈祥,花名司麟 ,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。

1004 0

是时候改变你数仓的增量同步方案了

本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和架构。如果时间允许,我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。讲师介绍祝威廉,资深数据架构,11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台,降低AI落地成本相关工作上。

1747 0

(第一部分)从Python 到Java ,Pyboot加速大数据和AI的融合

Python 代表机器学习生态,而以 Hadoop/Spark 为核心的开源大数据则以 Java 为主。前者拥有数不清的算法库和程序,后者承载着海量数据和大量的企业应用。除了 SQL 这个标准方式和各种五花八门的协议接口,还有没有更高效的一手数据通道,将两个生态对接起来,乃至深度融合?Pyboot 是我们在这个方向上的探索。有兴趣的同学欢迎现场观摩演示和技术交流。嘉宾介绍郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台;孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作;

1827 0

Spark on Kubernetes & YARN

以Kubernetes为代表的云原生技术越来越流行起来,spark是如何跑在Kubernetes之上来享受云原生技术的红利?Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别?以及Kubernetes 和YARN的差异点是什么。讲师介绍何剑,阿里巴巴高级技术专家,专注于Kubernetes容器云和大数据底层调度以及基础架构,负责阿里巴巴容器平台在线服务和离线计算任务混部。此前就职于Hortonworks, 是Hadoop 社区Committer和PMC成员

1386 53

EMR StarRocks VS 开源版本功能差异介绍

EMR StarRocks 线上公开课 第2期直播亮点Serverless StarRocks 客户案例分享Serverless StarRocks VS 开源版本能力介绍讲师简介弘锐 - 阿里云 E-MapReduce 产品专家

608 0

Apache Kyuubi & Celeborn,助力 Spark 拥抱云原生

10月14日14:00-17:30,Apache Kyuubi & Celeborn 社区将在杭州举办「Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生」Meetup,本次 Meetup 邀请到阿里云、网易数帆、Cisco、丁香园、Shopee 等技术大咖深入探讨交流基于 Apache Kyuubi & Celeborn 的技术实践,助力 Spark 拥抱云原生!讲师/嘉宾简介周克勇(一锤):阿里云 EMR Spark 引擎负责人,Apache Celeborn (Incubating) 的发起人潘成:网易数帆大数据技术专家,Apache Kyuubi PMC Member,Apache Celeborn (Incubating) PPMC Member朱夷(AngersZhuuuu):Shopee 技术专家, Spark PIC。 Apache Celeborn(Incubating) PPMC/Apache Spark active Contributor/ Apache HDFS/YARN contributorHe Zhao:Data Engineer at CiscoPengqi Li:Data Engineer at Cisco陈福:Apache Kyuubi PMC Member / Apache Celeborn (Incubating) Committer / 丁香园大数据基础平台负责人

1893 1

阿里云EMR StarRocks 线上发布会

2022年5月11日14:00,阿里云EMR StarRocks 产品线上发布会重磅开启,精彩不容错过!阿里云EMR-StarRocks 是 StarRocks 授权阿里云的一款新一代开源OLAP产品,致力于构建极速统一分析体验,满足企业用户的多种数据分析场景。讲师/嘉宾简介本次发布会邀请到了来自阿里云、StarRocks、众安保险的产品技术专家,详细介绍 EMR StarRocks 的功能优势、应用场景以及落地实践,揭秘 StarRocks 极速数据湖分析能力背后的技术支撑和未来规划。

579 0

E-MapReduce 极客挑战赛线上宣讲会

直播介绍:(建议600字以内)E-MapReduce 极客挑战赛线上宣讲会直播内容:1、大咖寄语2、赛事解读讲师简介EMR极客挑战赛官方

688 0

开源大数据社区 & 阿里云 E-MapReduce 系列直播 第12期

此次课程是继上一节“ Spark 大数据处理最佳实践 ” 课后,大数据最佳实践课程的第二课。主要讲一下 flink 流计算的最佳实践。讲师根据自己多年经验总结的方法论,从 flink 学习框架入手,配合一些非常落地的最佳实践,带你有章法的学习 flink ,摆脱技术小白称号!讲师简介简锋 阿里云 EMR 数据开发平台 负责人

992 0

第三节课:EMR 的存储解决方案

本节主要介绍EMR针对云上大数据的存储解决方案,如何为计算提供灵活高效的存储基础讲师:姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作

1134 0

第二节课:EMR 产品入门

本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等讲师:孙大鹏,花名诚历,阿里巴巴 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

1012 0

《数据湖存储架构选型》

数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。传统的大数据平台如何基于数据湖架构进行平台升级,享受新一轮的技术发展红利?郑老师着重跟大家分享了数据湖架构和应用在存储上面临的主要挑战,以及方案选型和最佳实践。嘉宾简介:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。

1068 0

关于 JindoFS 最新的 OTS 方案

本次直播主要介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持,以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。讲师介绍殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

1144 0

【Spark Relational Cache实现亚秒级响应的交互式分析】

2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》Apache Spark被广泛用于超大规模的数据分析处理,在交互式分析等时间敏感的场景中,超大规模数据量的处理时间可能无法满足用户快速响应的需求。通过数据的预组织和预计算,将频繁访问的数据和计算提前执行并保存在Relational Cache中,优化后续特定模式的查询,可以显著提高查询速度,实现亚秒级的响应。本议题主要介绍Spark Relational Cache的实现原理和使用场景。主讲人王道远(健身),阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

1567 0

【云上大数据的一种高性能数据湖存储方案】

大数据上云是业界普遍共识,存储和计算分离的趋势日益显著,如何为云上蓬勃发展的大数据处理和分析引擎提供坚实的存储基础?这个 session 会主要讨论 EMR 技术团队重磅推出的一种新型混合存储解决方案,该方案基于云平台和云存储,面向新的存储硬件和计算发展趋势,为 EMR 弹性计算量身打造,在成本,弹性和性能上追求极佳平衡。技术上是如何实现的?性能如何?覆盖了哪些典型场景,最佳实践是什么?敬请期待!主讲人殳鑫鑫(辰石),阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。徐铖, Intel大数据团队软件开发经理

1682 0

【EMR打造高效云原生数据分析引擎】

EMR-Jindo 是 EMR 推出的云原生 OLAP 引擎。凭借该引擎,EMR 成为第一个云上 TPC-DS 成绩提交者。经过持续不断地内核优化,目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高,达到了3615071,成本降低到 0.76 CNY。本次分享将介绍 EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。主讲人辛现银(辛庸),阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

1412 0

【助力云上开源生态 - 阿里云开源大数据平台的发展】

介绍阿里云上开源生态的发展,阿里云如何更好的支持和融合开源生态,以及未来的发展。主讲人夏立,花名雷飙,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。

1118 0

使用DDI+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

本次课程将介绍网约车模拟数据从产生、发布到流数据服务confluent,通过Databricks Structured Streaming 进行实时数据处理,存储到LakeHouse,并使用spark和spark sql进行分析的应用实践。讲师/嘉宾简介李锦桂-阿里云开源大数据平台开发工程师

633 0

第四节课:EMR 开通与演示

本节主要介绍开通EMR的环境准备、账号准备、付费情况、实操演示讲师:魏巍,花名念民,阿里巴巴 EMR 产品经理

1019 0

Hadoop 小文件/冷文件分析

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。讲师:郭聪,花名析源,阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。

1546 0

Spark on Zeppelin

Apache Zeppelin 是一个交互式的大数据开发Notebook,从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势:不需要编译Jar,环境配置简单,交互式开发,数据结果可视化等等。本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。

1507 0

Tablestore结合Spark的云上流批一体大数据架构

传统Lambda架构组件多运维复杂,如何使用一套存储和一套计算来实现流批架构充分享受技术红利?以Delta Lake为代表的新型数据湖方案越来越流行,传统的Lambda架构如何向数据湖架构进行扩展?以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。讲师介绍王卓然, 花名琸然 阿里云存储服务技术专家

1811 0

Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理

Tablestore是阿里云自研的云原生结构化大数据存储服务,本议题会详细介绍如何基于Tablestore的CDC技术,将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。最新版本的Connector会随着EMR下个版本的SDK一起开源,场景环节会结合阿里内部的业务介绍用户如何结合Tablestore和Spark来实现实时数据处理。讲师介绍朱晓然 ,Tablestore存储服务技术专家

1124 0

Lakehouse Meetup“Apache Hudi 实时湖仓解决方案

Lakehouse Meetup“Apache Hudi 实时湖仓解决方案”陈玉兆阿里巴巴技术专家Apache Hudi PMCApache Calcite PMC

4386 0

Delta Lake的演进历程和现状优势【Databricks 数据洞察公开课】

Delta Lake作为一个开源项目的演进路径和现状优势,以及怎样帮助在现有存储系统上构建Lakehouse架构。产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群下期预告《深度解析数据湖存储方案Lakehouse架构》讲师/嘉宾简介筱龙阿里云开源大数据平台技术专家

609 0

Apache Flink x Iceberg Meetup 上海站

问题与互动页面(戳我进入)4月17日,Apahce Flink 社区2021年的首场线下 Meetup 正式开启!本次Apahce Flink x Iceberg Meetup邀请了来自阿里巴巴、腾讯、Dell、汽车之家的四位技术专家,聚焦 Flink x Iceberg 数据湖应用主题,围绕湖仓一体架构实践、Iceberg和对象存储的数据湖构建方案、超大规模数据入湖实践以及数据入湖面临的挑战等全方位剖析数据湖生产应用难题!活动亮点:超多实用干货,从数据湖应用面临的挑战入手,解析数据湖架构升级、对象存储与 Iceberg 的数据湖生态以及百亿数据入湖实践,轻松 get 数据湖正确打开方式;活动形式多样化,线下线上同步开启,同城可参与线下 Meetup 面对面交流,异地也可在线观看直播,精彩内容不错过;丰富周边等你拿,报名参加就有机会获得超多 Flink 社区定制的精美周边!Meetup 技术交流群:(Apache Flink 社区)活动议程合作伙伴

7919 0

Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏

近年来,由于对通用人工智能研究的潜在价值,训练AI玩游戏一直是一个火热的研究领域。FIFA实时视频游戏场景复杂,需要结合图像,强化学习等多种不同的AI技术,同时也要求agents响应有实时性,因此是一个非常好的试验场,可以用来探索不同类型的AI技术。本次分享主要介绍我们在训练AI玩FIFA视频游戏方面的一些工作。有兴趣的同学,可以提前关注此开源项目:https://github.com/intel-analytics/analytics-zoo讲师介绍:喻杉,Intel大数据分析团队机器学习工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发针对时间序列分析的自动机器学习组件。在加入intel前,她在浙江大学获得了学士和硕士学位。

1839 0
我要发布