开源大数据平台 E-MapReduce-视频-阿里云开发者社区-阿里云

Dev-Talk

|

视频

阿里云EMR 2.0线上发布会

云原生趋势下，开源大数据处于重构之中，以 Hadoop 为核心的开源大数据体系，从 2015 年开始转变为多元化技术并行发展。阿里云EMR作为开源大数据领域的引领者，迎来重磅升级，从平台体验、数据开发、服务形态、分析场景实现全面创新。通过云原生能力重构平台层、数据层、计算层，满足数千客户流处理、数据可视化、交互式分析、数据湖等多场景需求，为客户构建新一代开源大数据基础设施！讲师/嘉宾简介荆杭-阿里云高级产品专家，EMR产品负责人绝顶-阿里云资深技术专家，EMR平台技术团队负责人无谓-阿里云资深技术专家，数据湖构建与分析负责人铁杰 - 阿里云高级技术专家，数据湖存储负责人辰繁 - 阿里云高级技术专家，开源大数据OLAP&生态负责人

65472 0 1

Dev-Talk

|

视频

阿里云EMR系列直播-EMR spark on ACK产品演示及最佳实践

EMR on ACK是企业级半托管的开源大数据平台，为阿里云E-MapReduce(EMR)提供了一个部署选项，允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。目前支持Spark引擎的部署，结合自研的Remote shuffle service服务组件，提供用户高稳定、高性价比、灵活的弹性计算服务。本次直播重点展开了该产品介绍和使用演示。讲师介绍石磊（砳岩），阿里云技术专家

3463 0 0

Dev-Talk

|

视频

云上StarRocks 极速湖仓meetup-开源大数据OLAP的思考及最佳实践

6253 45 46

开发者说

|

视频

使用分布式自动机器学习进行时间序列分析

对于时间序列预测搭建机器学习应用的过程非常繁琐且需要大量经验。为了提供一个简单易用的时间序列预测工具，我们将自动机器学习应用于时间序列预测，将特征生成，模型选择和超参数调优等过程实现自动化。我们的工具基于Ray（UC Berkeley RISELab开源的针对高级AI 应用的分布式框架，并作为Analytics zoo（由intel开源的统一的大数据分析和人工智能平台）的一部分功能提供给用户。嘉宾介绍喻杉，Intel大数据分析团队软件工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发自动机器学习组件。在加入intel前，她在浙江大学获得了学士和硕士学位。

1984 0 1

Dev-Talk

|

大数据

|

视频

云上StarRocks，极速湖仓meetup - 北京站

来自水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家，针对开源 OLAP 技术架构、 StarRocks 产品硬核技术及 EMR StarRocks 进行分享。EMR Serverless StarRocks 免费公测讲师/嘉宾简介水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家

2274 1 3

Dev-Talk

|

视频

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

从场景痛点、实践操作介绍如何使用Delta Lake同时处理批作业和流作业，快速搭建批流一体数据仓库。讲师/嘉宾简介讲师：佳亮，阿里云开源大数据平台技术工程师

1826 0 1

Dev-Talk

|

视频

阿里云EMR系列直播 - 精讲 Databricks数据洞察（介绍及案例分析）

Databricks数据洞察是企业级全托管的Spark高性能大数据分析平台，来自Apache Spark创始公司Databricks。引擎采用Databricks Runtime，性能与社区版相比，最高可达50倍提升，高效而稳定。本次直播将重点展开介绍该产品，并针对代表性案例进行分析。讲师介绍韩宗泽（棕泽），阿里云技术专家，计算平台事业部开放平台-生态企业团队负责人

1058 0 0

Dev-Talk

|

视频

Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析

Spark Shuffle RPMem扩展提供了一个基于PMem 和RDMA 来加速Shuffle的方案，它采用PMem 作为Shuffle的存储介质，利用PMDK 用户态编程库进行数据读写，减小用户态、内核态切换与文件系统开销；用基于RDMA网络协议异构的传输层实现高性能数据传输；还将RDMA直接注册在PMem上，减少内存拷贝。本次直播介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。讲师介绍：张建，英特尔亚太研发有限公司大数据部门的软件工程经理，专注于大数据和机器学习中存储方案优化

2544 58 58

开发者说

|

视频

关于 JindoFS 最新的 OTS 方案

本次直播主要介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持，以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。讲师介绍殳鑫鑫，花名辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

1217 0 0

Dev-Talk

|

视频

《数据湖存储架构选型》

数据湖技术在大数据领域炙手可热，随着在云上的广泛部署和应用，其业务价值逐渐获得业界共识。传统的大数据平台如何基于数据湖架构进行平台升级，享受新一轮的技术发展红利？郑老师着重跟大家分享了数据湖架构和应用在存储上面临的主要挑战，以及方案选型和最佳实践。嘉宾简介：郑锴，花名铁杰，阿里巴巴高级技术专家，Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年，目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。

1130 0 0

开发者说

|

视频

Office Depot利用Analytics Zoo构建智能推荐系统的实践分享

大量实验结果表明深度学习能更好地帮助商家为用户个性化推荐感兴趣的商品。Office Depot将Analytics Zoo工具包引入到他们的推荐系统中，在Spark集群上分布式训练了各种推荐算法模型，实验结果相比于传统的推荐算法有了十分显著的提升，本次分享主要介绍Office Depot使用Analytics Zoo构建智能推荐系统的实践经验。有兴趣的同学，可以提前关注此开源项目：https://github.com/intel-analytics/analytics-zoo讲师介绍讲师：黄凯Intel数据分析团队软件工程师。负责开发基于Apache Spark的深度学习框架，同时支持企业客户在大数据平台上构建端到端的深度学习应用。他是Analytics Zoo和BigDL的核心贡献者之一。

1672 0 0

开发者说

|

视频

Tablestore结合Spark的云上流批一体大数据架构

传统Lambda架构组件多运维复杂，如何使用一套存储和一套计算来实现流批架构充分享受技术红利？以Delta Lake为代表的新型数据湖方案越来越流行，传统的Lambda架构如何向数据湖架构进行扩展？以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。讲师介绍王卓然，花名琸然阿里云存储服务技术专家

1864 0 0

开发者说

|

视频

【EMR打造高效云原生数据分析引擎】

EMR-Jindo 是 EMR 推出的云原生 OLAP 引擎。凭借该引擎，EMR 成为第一个云上 TPC-DS 成绩提交者。经过持续不断地内核优化，目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高，达到了3615071，成本降低到 0.76 CNY。本次分享将介绍 EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。主讲人辛现银(辛庸)，阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop，Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作，专注于计算引擎、存储结构、数据库事务等内容。

1514 0 0

开发者说

|

视频

Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理

Tablestore是阿里云自研的云原生结构化大数据存储服务，本议题会详细介绍如何基于Tablestore的CDC技术，将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。最新版本的Connector会随着EMR下个版本的SDK一起开源，场景环节会结合阿里内部的业务介绍用户如何结合Tablestore和Spark来实现实时数据处理。讲师介绍朱晓然，Tablestore存储服务技术专家

1188 0 0

Dev-Talk

|

视频

EMR StarRocks OLAP 数据分析场景

EMR StarRocks 线上公开课第3期直播亮点EMR Serverless StarRocks 极速分析存算分离架构升级Trino兼容，无缝替换讲师/嘉宾简介周康（榆舟）阿里云高级技术专家开源大数据OLAP引擎团队负责人StarRocks TSC Member

650 0 0

Dev-Talk

|

视频

云上StarRocks 极速湖仓meetup-水滴筹基于阿里云EMR StarRocks实战分享

3309 0 0

Dev-Talk

|

视频

Lakehouse Meetup “Apache Pulsar 的湖仓一体方案：Pulsar 的 Lakehouse 分层存储集成详解”

Lakehouse Meetup “Apache Pulsar 的湖仓一体方案：Pulsar 的 Lakehouse 分层存储集成详解”陈航StreamNative 高级工程师Apache Pulsar PMC member

768 0 0

Dev-Talk

|

视频

阿里云EMR StarRocks 线上发布会

2022年5月11日14：00，阿里云EMR StarRocks 产品线上发布会重磅开启，精彩不容错过！阿里云EMR-StarRocks 是 StarRocks 授权阿里云的一款新一代开源OLAP产品，致力于构建极速统一分析体验，满足企业用户的多种数据分析场景。讲师/嘉宾简介本次发布会邀请到了来自阿里云、StarRocks、众安保险的产品技术专家，详细介绍 EMR StarRocks 的功能优势、应用场景以及落地实践，揭秘 StarRocks 极速数据湖分析能力背后的技术支撑和未来规划。

628 0 0

开发者说

|

视频

【云上大数据的一种高性能数据湖存储方案】

大数据上云是业界普遍共识，存储和计算分离的趋势日益显著，如何为云上蓬勃发展的大数据处理和分析引擎提供坚实的存储基础？这个 session 会主要讨论 EMR 技术团队重磅推出的一种新型混合存储解决方案，该方案基于云平台和云存储，面向新的存储硬件和计算发展趋势，为 EMR 弹性计算量身打造，在成本，弹性和性能上追求极佳平衡。技术上是如何实现的？性能如何？覆盖了哪些典型场景，最佳实践是什么？敬请期待！主讲人殳鑫鑫(辰石)，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。徐铖， Intel大数据团队软件开发经理

1747 0 0

Dev-Talk

|

视频

Apache Kyuubi & Celeborn，助力 Spark 拥抱云原生

10月14日14:00-17:30，Apache Kyuubi & Celeborn 社区将在杭州举办「Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生」Meetup，本次 Meetup 邀请到阿里云、网易数帆、Cisco、丁香园、Shopee 等技术大咖深入探讨交流基于 Apache Kyuubi & Celeborn 的技术实践，助力 Spark 拥抱云原生！讲师/嘉宾简介周克勇(一锤)：阿里云 EMR Spark 引擎负责人，Apache Celeborn (Incubating) 的发起人潘成：网易数帆大数据技术专家，Apache Kyuubi PMC Member，Apache Celeborn (Incubating) PPMC Member朱夷(AngersZhuuuu)：Shopee 技术专家, Spark PIC。 Apache Celeborn(Incubating) PPMC/Apache Spark active Contributor/ Apache HDFS/YARN contributorHe Zhao：Data Engineer at CiscoPengqi Li：Data Engineer at Cisco陈福：Apache Kyuubi PMC Member / Apache Celeborn (Incubating) Committer / 丁香园大数据基础平台负责人

1956 1 1

Dev-Talk

|

视频

洞悉 Spark 任务调度新能力｜Apache Spark + DolphinScheduler Meetup

洞悉 Spark 任务调度新能力｜Apache Spark + DolphinScheduler Meetup特邀 - 阿里云 EMR 数据开发平台团队负责人孙一凡、BIGO 大数据研发工程师许名勇、阿里云 EMR Spark 引擎负责人周克勇，通过他们的分享让用户能更快更好更便捷的使用 Apahce Spark + Apahce DolphinScheduler 。讲师/嘉宾简介孙一凡（Evans 忆梵）阿里云 EMR 数据开发平台团队负责人周克勇（一锤）阿里云 EMR Spark 引擎负责人许名勇 BIGO 大数据研发工程师

4229 2 7

Dev-Talk

|

视频

《开源大数据热力报告 2022》解读

11 月 5 日，开放原子开源基金会、X-lab 开放实验室、阿里巴巴开源联合发布了《开源大数据热力报告 2022》。该报告收集了2015 年至 2022 年的相关公开数据进行关联分析，研究开源大数据进入“后 Hadoop 时代”的技术趋势，以及开源社区的运作模式对技术走向的助推作用。本周四，我们将以直播的方式，就《开源大数据热力报告 2022》的结论进行延申，讨论应如何提高开源开发者活跃度，提升开源项目热力。讲师/嘉宾简介赵生宇（X-lab开放实验室核心成员、开源社成员、同济大学计算机在读博士生、OpenDigger开源项目发起人）燕青（Apache Kyuubi PPMC、Apache Spark Committer、Apache Submarine Committer、网易技术专家）、赵恒（StarRocks PMC、StarRocks产品负责人）徐榜江（雪尽）（Flink CDC Maintainer、Apache Flink Committer、阿里云技术专家）、徐昱（StarRocks Active Contributor，Apache Hudi Contributor，华米科技高级大数据工程师）

739 0 0

Dev-Talk

|

视频

Delta Lake的演进历程和现状优势【Databricks 数据洞察公开课】

Delta Lake作为一个开源项目的演进路径和现状优势，以及怎样帮助在现有存储系统上构建Lakehouse架构。产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群下期预告《深度解析数据湖存储方案Lakehouse架构》讲师/嘉宾简介筱龙阿里云开源大数据平台技术专家

663 0 0

Dev-Talk

|

视频

第三节课：EMR 的存储解决方案

本节主要介绍EMR针对云上大数据的存储解决方案，如何为计算提供灵活高效的存储基础讲师：姚舜扬，花名辰山，阿里巴巴计算平台事业部 EMR 高级开发工程师，目前从事大数据存储方面的开发和优化工作

1189 0 0

Dev-Talk

|

视频

利用持久内存提速Spark

主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。讲师介绍：纪琨尚，英特尔亚太研发有限公司大数据部门的软件工程师，专注于Spark计算框架上基于Optane PMEM的优化叶宇强，英特尔亚太研发有限公司大数据部门的资深软件工程师，专注于Spark计算框架上基于Optane PMEM的优化

1573 0 0

Dev-Talk

|

视频

OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能

讲师介绍：陈海锋，英特尔亚太研发有限公司大数据部门的高级软件架构师，开发经理，主要研究和关注基于Hadoop和Spark的大数据框架的分析和优化，Apache社区的长期贡献者。沈祥翔，英特尔亚太研发有限公司大数据部门的高级软件工程师，主要担任OAP项目的开发。分享介绍：简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化，使用索引和缓存来解决交互式查询性能挑战。英特尔和社区合作，为Spark SQL实现了索引和数据源缓存，通过为关键查询列创建并存储完整的B +树索引，并使用智能的细粒度数据缓存策略，我们可以极大的提升基于Spark SQL的交互式查询的性能。

1774 0 0

Dev-Talk

|

视频

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳，本次直播将详细介绍Native Codegen框架。讲师简介：周克勇，花名一锤，阿里巴巴计算平台事业部EMR团队技术专家，大数据领域技术爱好者，对Spark有浓厚兴趣和一定的了解，目前主要专注于EMR产品中开源计算引擎的优化工作。参考文章：EMR Spark-SQL性能极致优化揭秘 Native Codegen Frameworkhttps://developer.aliyun.com/article/765156?spm=a2c6h.12873581.0.dArticle765156.5f6f47b4Mj7VpM&groupCode=aliyunemr

2214 0 0

Dev-Talk

|

视频

JindoFS Fuse 支持

本次直播主要介绍如何利用FUSE的POSIX文件系统接口，像本地磁盘一样轻松使用大数据存储系统, 为云上AI场景提供了高效的数据访问手段。讲师介绍苏昆辉，花名抚月，阿里巴巴计算平台事业部 EMR 高级工程师, Apache HDFS committer. 目前从事开源大数据存储和优化方面的工作。

1513 0 0

开发者说

|

视频

（第二部分）从Python 到Java ，Pyboot加速大数据和AI的融合

Python 代表机器学习生态，而以 Hadoop/Spark 为核心的开源大数据则以 Java 为主。前者拥有数不清的算法库和程序，后者承载着海量数据和大量的企业应用。除了 SQL 这个标准方式和各种五花八门的协议接口，还有没有更高效的一手数据通道，将两个生态对接起来，乃至深度融合？Pyboot 是我们在这个方向上的探索。有兴趣的同学欢迎现场观摩演示和技术交流。嘉宾介绍郑锴，花名铁杰，阿里巴巴高级技术专家，Apache Hadoop PMC，Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年，目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台；孙大鹏，花名诚历，阿里巴巴计算平台事业部 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作；

1824 1 1

开发者说

|

视频

云上大数据的存储方案设计和选择

上云拐点已来，开源大数据上云是业界共识。如何满足在云上低成本存储海量数据的同时又实现高效率弹性计算的潜在需求？放眼业界，都有哪些成熟存储方案和选择？各自适用的存储和计算场景是什么？背后的技术关键和考虑因素都有哪些？欢迎大数据技术爱好者面对面交流和探讨！嘉宾介绍姚舜扬，花名辰山，阿里巴巴计算平台事业部 EMR 高级开发工程师，目前从事大数据存储方面的开发和优化工作；苏昆辉，花名抚月，阿里巴巴计算平台事业部 EMR 高级工程师, 曾就职于华为、网易. Apache HDFS committer. 对Hadoop、HBase等有深入研究, 对分布式存储、高性能优化有丰富经验. 目前从事大数据云化相关工作.

1957 46 46

开发者说

|

视频

基于 Spark 打造高效云原生数据分析引擎

由阿里巴巴 EMR 团队提交的 TPC-DS 成绩在九月份的榜单中取得了排名第一的成绩。这个成绩背后离不开 EMR 团队对 Spark 执行引擎持续不断的优化。本次分享将选取一些有代表性的优化点，深入到技术细节做详细介绍，包括但不限于动态过滤、CBO增强、TopK排序等等。嘉宾介绍辛庸，阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop，Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作，专注于计算引擎、存储结构、数据库事务等内容。

1878 0 0

Dev-Talk

|

视频

StarRocks 3.0 极速统一的湖仓新范式

讲师简介张友东：StarRocks Active Contributor内容简介在线讲解从 shared-nothing 到 shared-data 的湖仓分析新范式如何帮助用户实现“极速统一“的价值。动手实践EMR Serverless StarRocks 免费测试https://developer.aliyun.com/article/1191440

2238 4 4

Dev-Talk

|

视频

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。讲师/嘉宾简介Databricks软件工程师张泊产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群

1362 2 2

Dev-Talk

|

视频

如何快速搭建云原生企业级数据湖架构及实践分享

众所周知，数据湖技术在大数据领域炙手可热，随着在云上的广泛部署和应用，其业务价值逐渐获得业界共识。如何快搭建数据湖架构被越来越多的企业探讨。本次演讲主要分享快速搭建云原生企业级数据湖架构及实践分享。讲师简介王震 -- 阿里云计算平台事业部开源大数据平台技术专家

1334 0 0

Dev-Talk

|

视频

开源大数据社区 & 阿里云 E-MapReduce 系列直播第12期

此次课程是继上一节“ Spark 大数据处理最佳实践 ” 课后，大数据最佳实践课程的第二课。主要讲一下 flink 流计算的最佳实践。讲师根据自己多年经验总结的方法论，从 flink 学习框架入手，配合一些非常落地的最佳实践，带你有章法的学习 flink ，摆脱技术小白称号！讲师简介简锋阿里云 EMR 数据开发平台负责人

1052 0 0

Dev-Talk

|

视频

数据湖JindoFS+OSS 实操干货36讲第三课（5/6讲）

【第5/6讲直播主题】1、访问 OSS 这类对象存储最快的方式：JindoFS SDK2、Hadoop/Spark 访问 OSS 加速【背景】为了让更多开发者了解并使用 JindoFS，由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16：00准时开讲！从五大板块入手，玩转数据湖！【讲师】诚历 - 阿里巴巴计算平台事业部 EMR 技术专家流影 - 阿里巴巴计算平台事业部 EMR 技术专家

1268 0 1

Dev-Talk

|

视频

数据湖JindoFS+OSS 实操干货36讲第二课

【第二课直播主题】1、如何将 HDFS 数据归档到 OSS2、如何将 Hive 数据按分区归档到 OSS【背景】为了让更多开发者了解并使用 JindoFS，由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16：00准时开讲！从五大板块入手，玩转数据湖！讲师介绍辰石 - 阿里巴巴计算平台事业部 EMR 技术专家健身 - 阿里巴巴计算平台事业部 EMR 技术专家

1379 0 0

Dev-Talk

|

视频

Apache Flink x Iceberg Meetup 上海站

问题与互动页面（戳我进入）4月17日，Apahce Flink 社区2021年的首场线下 Meetup 正式开启！本次Apahce Flink x Iceberg Meetup邀请了来自阿里巴巴、腾讯、Dell、汽车之家的四位技术专家，聚焦 Flink x Iceberg 数据湖应用主题，围绕湖仓一体架构实践、Iceberg和对象存储的数据湖构建方案、超大规模数据入湖实践以及数据入湖面临的挑战等全方位剖析数据湖生产应用难题！活动亮点：超多实用干货，从数据湖应用面临的挑战入手，解析数据湖架构升级、对象存储与 Iceberg 的数据湖生态以及百亿数据入湖实践，轻松 get 数据湖正确打开方式；活动形式多样化，线下线上同步开启，同城可参与线下 Meetup 面对面交流，异地也可在线观看直播，精彩内容不错过；丰富周边等你拿，报名参加就有机会获得超多 Flink 社区定制的精美周边！Meetup 技术交流群：（Apache Flink 社区）活动议程合作伙伴

7988 0 0

Dev-Talk

|

视频

JindoFS 存储策略和读写优化

本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段，并结合应用场景介绍对数据缓存加速的相关技术和策略。讲师介绍姚舜扬，花名辰山，阿里巴巴计算平台事业部 EMR 高级开发工程师，目前从事大数据存储方面的开发和优化工作

877 0 0

Dev-Talk

|

视频

Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏

近年来，由于对通用人工智能研究的潜在价值，训练AI玩游戏一直是一个火热的研究领域。FIFA实时视频游戏场景复杂，需要结合图像，强化学习等多种不同的AI技术，同时也要求agents响应有实时性，因此是一个非常好的试验场，可以用来探索不同类型的AI技术。本次分享主要介绍我们在训练AI玩FIFA视频游戏方面的一些工作。有兴趣的同学，可以提前关注此开源项目：https://github.com/intel-analytics/analytics-zoo讲师介绍：喻杉，Intel大数据分析团队机器学习工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发针对时间序列分析的自动机器学习组件。在加入intel前，她在浙江大学获得了学士和硕士学位。

1909 0 0

Dev-Talk

|

视频

存储计算分离场景的计算适应优化

讲师介绍王道远，花名健身，阿里云EMR技术专家，Apache Spark活跃贡献者，主要关注大数据计算优化相关工作。直播简介：本次分享会介绍云上大数据处理的存储计算分离特征，分析传统大数据处理中数据本地化与存储计算分离场景的区别，以及在存储计算分离场景中阿里云EMR的相关优化。

1698 0 0

开发者说

|

视频

Hadoop Job committer 的演化和发展

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分，为分布式任务的写入提供一致性的保证，本次分享主要介绍Job Committer的演进历史，以及社区和EMR在S3/OSS等云存储上的最新进展。讲师介绍李呈祥，花名司麟，阿里云智能EMR团队高级技术专家，Apache Hive Committer， Apache Flink Committer，目前主要专注于EMR产品中开源计算引擎的优化工作。

1046 0 0

开发者说

|

视频

【New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas】

Apache Spark 3.0 and Koalas的最新进展主讲人李潇,Databricks Spark 研发总监，管理一跨国团队，专注于 Apache Spark 和 Databricks Runtime 的开发和建设。他是 Apache Spark 项目管理委员会成员。本科毕业于南京理工大学，后在佛罗里达大学（University of Florida）获计算机博士学位，曾就职于 IBM，获发明大师称号（Master Inventor），在数据处理领域发表专利十余篇。（Github: gatorsmile）

1607 2 2

Dev-Talk

|

视频

EMR StarRocks VS 开源版本功能差异介绍

EMR StarRocks 线上公开课第2期直播亮点Serverless StarRocks 客户案例分享Serverless StarRocks VS 开源版本能力介绍讲师简介弘锐 - 阿里云 E-MapReduce 产品专家

682 0 0

Dev-Talk

|

视频

EMR StarRocks 3.0：极速统一湖仓新范式平台

EMR StarRocks 线上公开课第1期直播亮点统一极速湖仓架构的技术思考Serverless StarRocks 亮点及技术优势Serverless StarRocks 已落地案例分享Serverless StarRocks 持续演进与规划讲师简介弘锐 - 阿里云 E-MapReduce 产品专家

660 0 0

Dev-Talk

|

视频

云上StarRocks，极速湖仓meetup - 杨文波

6399 2 2

Dev-Talk

|

视频

Lakehouse Meetup “整合Pulsar和Lakehouse数据：使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”

Lakehouse Meetup “整合Pulsar和Lakehouse数据：使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”张勇 StreamNative 高级工程师Apache Pulsar Committer

513 0 0

Dev-Talk

|

视频

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

本次课程将介绍如何试用Databricks进行广告效果归因分析，完成一站式的部署机器学习，包括数据ETL、数据校验、模型训练/评测/应用等全流程。讲师/嘉宾简介冯加亮，阿里云开源大数据平台技术工程师

1133 1 2

Dev-Talk

|

视频

Delta Lake数据湖基础介绍（开源版）【Databricks 数据洞察公开课】

公开课第四讲：本期公开课针对社区版本Delta Lake提供的几大核心特性进行讲解，并通过示例演示如何使用这些特性。产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群下期预告《Delta Lake数据湖基础介绍（商业版）》讲师/嘉宾简介筱龙阿里云开源大数据平台技术专家

1290 1 1

Dev-Talk

|

视频

企业级全托管 Spark 大数据分析平台及案例分析【Databricks 数据洞察公开课】

从产品介绍、功能、典型场景、应用案例、Demo演示等多方面入手，介绍如何基于Databricks 数据洞察——Apache Spark的全托管数据分析平台，满足数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群讲师/嘉宾简介棕泽阿里云技术专家阿里云开源大数据生态企业研发负责人

821 0 0

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

阿里云EMR 2.0线上发布会

阿里云EMR系列直播-EMR spark on ACK产品演示及最佳实践

云上StarRocks 极速湖仓meetup-开源大数据OLAP的思考及最佳实践

使用分布式自动机器学习进行时间序列分析

云上StarRocks，极速湖仓meetup - 北京站

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

阿里云EMR系列直播 - 精讲 Databricks数据洞察（介绍及案例分析）

Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析

关于 JindoFS 最新的 OTS 方案

《数据湖存储架构选型》

Office Depot利用Analytics Zoo构建智能推荐系统的实践分享

Tablestore结合Spark的云上流批一体大数据架构

【EMR打造高效云原生数据分析引擎】

Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理

EMR StarRocks OLAP 数据分析场景

云上StarRocks 极速湖仓meetup-水滴筹基于阿里云EMR StarRocks实战分享

Lakehouse Meetup “Apache Pulsar 的湖仓一体方案：Pulsar 的 Lakehouse 分层存储集成详解”

阿里云EMR StarRocks 线上发布会

【云上大数据的一种高性能数据湖存储方案】

Apache Kyuubi & Celeborn，助力 Spark 拥抱云原生

洞悉 Spark 任务调度新能力｜Apache Spark + DolphinScheduler Meetup

《开源大数据热力报告 2022》解读

Delta Lake的演进历程和现状优势【Databricks 数据洞察公开课】

第三节课：EMR 的存储解决方案

利用持久内存提速Spark

OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

JindoFS Fuse 支持

（第二部分）从Python 到Java ，Pyboot加速大数据和AI的融合

云上大数据的存储方案设计和选择

基于 Spark 打造高效云原生数据分析引擎

StarRocks 3.0 极速统一的湖仓新范式

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

如何快速搭建云原生企业级数据湖架构及实践分享

开源大数据社区 & 阿里云 E-MapReduce 系列直播 第12期

数据湖JindoFS+OSS 实操干货36讲 第三课（5/6讲）

数据湖JindoFS+OSS 实操干货36讲 第二课

Apache Flink x Iceberg Meetup 上海站

JindoFS 存储策略和读写优化

Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏

存储计算分离场景的计算适应优化

Hadoop Job committer 的演化和发展

【New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas】

EMR StarRocks VS 开源版本功能差异介绍

EMR StarRocks 3.0：极速统一湖仓新范式平台

云上StarRocks，极速湖仓meetup - 杨文波

Lakehouse Meetup “整合Pulsar和Lakehouse数据：使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

Delta Lake数据湖基础介绍（开源版）【Databricks 数据洞察公开课】

企业级全托管 Spark 大数据分析平台及案例分析【Databricks 数据洞察公开课】

活跃用户

相关产品

开源大数据社区 & 阿里云 E-MapReduce 系列直播第12期

数据湖JindoFS+OSS 实操干货36讲第三课（5/6讲）

数据湖JindoFS+OSS 实操干货36讲第二课