开源大数据平台 E-MapReduce-视频-第2页-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

今日

1647

内容

活动

5431

关注

来自：大数据与机器学习

活动

Dev-Talk

视频

开源大数据社区 & 阿里云 E-MapReduce 系列直播第7期

云原生数据湖构建与分析最佳实践讲师花名健身--阿里巴巴计算平台事业部 EMR技术专家

915 0 0

Dev-Talk

视频

第二节课：EMR 产品入门

本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等讲师：孙大鹏，花名诚历，阿里巴巴 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作。

1063 0 0

Dev-Talk

视频

第一节课：走进开源大数据平台 EMR

本节主要介绍EMR产品历史、选择理由、产品形态介绍开营介绍：夏俊鸾，花名亦龙，阿里云智能资深技术专家讲师：王晓平，花名子关，阿里巴巴 EMR 产品专家

1325 0 0

Dev-Talk

视频

Hadoop 小文件/冷文件分析

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响，严重时甚至影响业务稳定性，这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法，并基于分析结果可以采取哪些处理措施。讲师：郭聪，花名析源，阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。

1600 0 0

Dev-Talk

视频

大规模文件元数据下的耗时操作优化

本次直播主要介绍大数据生态中常见的元数据服务部署形态，并分析大规模文件元数据下在生产环境中可能遇到的问题，以及针对这些问题如何进行优化和调整。讲师介绍孙大鹏，花名诚历，阿里巴巴计算平台事业部 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作。

1520 0 0

开发者说

视频

实时数仓建设以及典型场景应用

本次分享会介绍实时数仓的思路以及一些实践，包括SparkStreaming SQL引擎，以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合；同时会在这个基础上介绍一些典型案例应用讲师介绍宋军，花名嵩林阿里云EMR高级技术专家。从事Spark内核优化，对SparkCore/SprakSQL有深入了解，Spark Contributor

2546 0 0

开发者说

视频

本分享会先介绍传统数据增量同步方案，之后对比新方案（完全基于Spark无需额外组件），介绍新方案如何结合最新的数据湖(delta lake)实现，同时引入spark-binlog，极大的简化了数据增量的门槛和架构。如果时间允许，我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。讲师介绍祝威廉，资深数据架构，11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台，降低AI落地成本相关工作上。

1787 0 0

开发者说

视频

（第一部分）从Python 到Java ，Pyboot加速大数据和AI的融合

Python 代表机器学习生态，而以 Hadoop/Spark 为核心的开源大数据则以 Java 为主。前者拥有数不清的算法库和程序，后者承载着海量数据和大量的企业应用。除了 SQL 这个标准方式和各种五花八门的协议接口，还有没有更高效的一手数据通道，将两个生态对接起来，乃至深度融合？Pyboot 是我们在这个方向上的探索。有兴趣的同学欢迎现场观摩演示和技术交流。嘉宾介绍郑锴，花名铁杰，阿里巴巴高级技术专家，Apache Hadoop PMC，Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年，目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台；孙大鹏，花名诚历，阿里巴巴计算平台事业部 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作；

1903 0 0

开发者说

视频

Spark on Kubernetes & YARN

以Kubernetes为代表的云原生技术越来越流行起来，spark是如何跑在Kubernetes之上来享受云原生技术的红利？Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别？以及Kubernetes 和YARN的差异点是什么。讲师介绍何剑，阿里巴巴高级技术专家，专注于Kubernetes容器云和大数据底层调度以及基础架构，负责阿里巴巴容器平台在线服务和离线计算任务混部。此前就职于Hortonworks, 是Hadoop 社区Committer和PMC成员

1451 53 53

开发者说

视频

【基于Spark与TensorFlow的机器学习实践】

Apache Spark是目前最火热的计算框架，而TensorFlow是目前最火热的机器学习框架，当他们2个碰撞到一起的时候，也会产生巨大的能量。本议题会介绍EMR和PAI在这个上面的实践。主讲人吴威（无谓），阿里巴巴高级技术专家，2008年加入阿里巴巴集团，先后在B2B和阿里云工作，一直从事大数据和分布式计算相关研究，作为主要开发和运维人员经历了阿里内部大数据集群的上线和发展壮大，现在阿里云EMR团队，负责Spark、Hadoop等计算引擎研发。江宇，阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设

2555 1 1

Dev-Talk

视频

云上StarRocks 极速湖仓meetup-开源大数据平台E-MapReduce Serverless StarRocks产品介绍

4940 0 0

Dev-Talk

视频

Lakehouse Meetup“Apache Hudi 实时湖仓解决方案

Lakehouse Meetup“Apache Hudi 实时湖仓解决方案”陈玉兆阿里巴巴技术专家Apache Hudi PMCApache Calcite PMC

4443 0 0

Dev-Talk

视频

使用Databricks和MLflow进行机器学习模型训练和部署的应用实践【Databricks 数据洞察公开课】

本期课介绍如何使用DDI和MLflow搭建机器学习生命周期管理平台，实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。讲师/嘉宾简介李锦桂--阿里云开源大数据平台开发工程师

1243 0 2

Dev-Talk

视频

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

从零售业需求预测痛点、商店商品模型预测的实践演示介绍Databricks如何助力零售商进行需求、库存预测，实现成本把控和营收增长。讲师/嘉宾简介李锦桂--阿里云开源大数据平台开发工程师

713 0 0

Dev-Talk

视频

Delta Lake数据湖基础介绍（商业版）【Databricks 数据洞察公开课】

公开课第五讲：介绍 Lakehouse 搜索引擎的设计思想，探讨其如何使用缓存，辅助数据结构，存储格式，动态文件剪枝，以及 vectorized execution 达到优越的处理性能。加入技术交流群下期预告《如何快速搭建流批一体数据仓库》讲师/嘉宾简介：李洁杏 Databricks 资深软件工程师

1273 0 0

Dev-Talk

视频

E-MapReduce 极客挑战赛线上宣讲会

直播介绍：（建议600字以内）E-MapReduce 极客挑战赛线上宣讲会直播内容：1、大咖寄语2、赛事解读讲师简介EMR极客挑战赛官方

727 0 0

Dev-Talk

视频

开源大数据社区 & 阿里云 E-MapReduce 系列直播第10期

EMR on ACK是企业级半托管的开源大数据平台，为阿里云E-MapReduce(EMR)提供了一个部署选项，允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。Yarn on K8S方案帮助您平衡不同集群的资源使用，共享集群间计算资源，充分利用所有节点的计算资源，满足计算资源弹性调度，云上混合部署在线和离线任务的需求。本次直播将重点展开 Yarn on ACK 的弹性介绍。讲师简介霁谦阿里云开源大数据平台高级开发工程师

1535 56 57

Dev-Talk

视频

开源大数据社区 & 阿里云 E-MapReduce 系列直播第9期

EMR on ACK是企业级半托管的开源大数据平台，为阿里云E-MapReduce(EMR)提供了一个部署选项，允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。目前支持Spark引擎的部署，结合自研的Remote shuffle service（RSS）服务组件，提供用户高稳定、高性价比、灵活的弹性计算服务。RSS解决了计算存储分离和混合架构下的shuffle稳定性和性能问题。本次直播将重点展开RSS的使用和性能展示。讲师介绍吴雪扬（枢木），阿里云高级开发工程师

2360 0 0

Dev-Talk

视频

数据湖JindoFS+OSS 实操干货36讲第四课（7/8讲）

【第7/8讲直播主题】1、Flink 高效 sink 写入 OSS2、Flume 高效写入 OSS【背景】为了让更多开发者了解并使用 JindoFS，由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16：00准时开讲！从五大板块入手，玩转数据湖！讲师介绍重湖 - 阿里巴巴计算平台事业部 EMR 高级工程师焱冰 - 阿里巴巴计算平台事业部 EMR 技术专家

1150 0 0

Dev-Talk

视频

Intel MLlib：构建平台优化的Spark机器学习

Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时，在底层利用原生算法库来实现在CPU和GPU上的最优化算法，同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明，该软件包在最小化应用改动的基础上，可以极大地提升MLlib算法的性能。讲师介绍吴晓昶英特尔亚太研发有限公司大数据部门的高级软件工程师，主要研究方向为并行计算，大数据系统和机器学习，CPU和GPU的性能优化。目前关注Spark和机器学习的系统性能优化。

1417 0 0

Dev-Talk

视频

Spark on Zeppelin

Apache Zeppelin 是一个交互式的大数据开发Notebook，从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势：不需要编译Jar，环境配置简单，交互式开发，数据结果可视化等等。本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。章剑锋（简锋），开源界老兵，Apache Member，曾就职于 Hortonworks，目前在阿里巴巴计算平台事业部任高级技术专家，并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ，以及 Apache Pig 的 Committer。

1579 0 0

Dev-Talk

视频

用Analytics-Zoo实现基于深度学习的胸腔疾病AI诊疗辅助

讲师介绍龚奇源博士，英特尔机器学习专家。从事多年数据隐私和机器学习研究，2017年加入英特尔，目前负责Analytics-Zoo中ClusterServing、Streaming、OpenVINO和推理优化等工作。直播简介：本次分享主要介绍如何利用Analytics Zoo和NIH胸部X光影像数据集，在Apache Spark集群上实现基于深度学习的胸腔疾病分类，为医生提供端到端的胸腔疾病AI诊疗辅助。有兴趣的同学，可以提前关注此开源项目：https://github.com/intel-analytics/analytics-zoo

1714 0 0

开发者说

视频

使用Apache SuperSet和EMR Spark打造交互式的数据探索平台

本次分享主要介绍如何结合Apache SuperSet和EMR Spark，利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应，交互式的可视化数据探索。讲师介绍李呈祥，花名司麟，阿里云智能EMR团队高级技术专家，Apache Hive Committer， Apache Flink Committer，目前主要专注于EMR产品中开源计算引擎的优化工作。

1723 0 0

开发者说

视频

【Spark Relational Cache实现亚秒级响应的交互式分析】

2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》Apache Spark被广泛用于超大规模的数据分析处理，在交互式分析等时间敏感的场景中，超大规模数据量的处理时间可能无法满足用户快速响应的需求。通过数据的预组织和预计算，将频繁访问的数据和计算提前执行并保存在Relational Cache中，优化后续特定模式的查询，可以显著提高查询速度，实现亚秒级的响应。本议题主要介绍Spark Relational Cache的实现原理和使用场景。主讲人王道远（健身），阿里云EMR技术专家，Apache Spark活跃贡献者，主要关注大数据计算优化相关工作。

1625 0 0

开发者说

视频

【助力云上开源生态 - 阿里云开源大数据平台的发展】

介绍阿里云上开源生态的发展，阿里云如何更好的支持和融合开源生态，以及未来的发展。主讲人夏立，花名雷飙，阿里巴巴计算平台EMR高级产品专家，2014年开始接触大数据，历经阿里内部的大数据发展，目前在阿里云上负责开源的大数据平台EMR产品，构建云上的开源生态。

1173 0 0

Dev-Talk

视频

云上StarRocks 极速湖仓meetup-猿辅导基于StarRocks的OLAP演进之路

5061 58 58

Dev-Talk

视频

Lakehouse Meetup “基于数据湖格式构建数据湖仓架构”

Lakehouse Meetup “基于数据湖格式构建数据湖仓架构”毕岩阿里巴巴技术专家

740 0 0

Dev-Talk

视频

使用DDI+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

本次课程将介绍网约车模拟数据从产生、发布到流数据服务confluent,通过Databricks Structured Streaming 进行实时数据处理，存储到LakeHouse,并使用spark和spark sql进行分析的应用实践。讲师/嘉宾简介李锦桂-阿里云开源大数据平台开发工程师

685 0 0

Dev-Talk

视频

开源大数据社区 & 阿里云 E-MapReduce 系列直播第11期

Spark 大家应该都很熟了，我们这次的 Spark 最佳实践课程不会生搬硬套去讲一些你能在网上找得到的东西。而是讲师基于自己多年的经验总结出来的一些关于Spark或者是大数据方面一些原则性的东西，一些非常落地的最佳实践，主要的目标是让你为摆脱Spark小白用户的称号。讲师简介简锋阿里云 EMR 数据开发平台负责人

1036 0 0

Dev-Talk

视频

第四节课：EMR 开通与演示

本节主要介绍开通EMR的环境准备、账号准备、付费情况、实操演示讲师：魏巍，花名念民，阿里巴巴 EMR 产品经理

1068 0 0

Dev-Talk

视频

TFPark: Distributed TensorFlow in Production on Apache Spark

TFPark是开源AI平台Analytics Zoo中一个模块，它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面，TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中，而无需对现有集群做任何修改；另一方面TFPark屏蔽了复杂的分布式系统逻辑，可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用，内部实现以及在生产环境中的实际案例。讲师简介：汪洋，英特尔大数据团队的机器学习工程师，专注于分布式机器学习框架和应用。他是Analytics Zoo和BigDL的核心贡献者之一。

1131 0 1

Dev-Talk

视频

通过LLVM加速SparkSQL时间窗口计算

讲师介绍：王太泽第四范式特征工程数据库负责人曾在百度担任资深研发工程师一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。议题简介为什么要优化spark时间窗口未加速前面临问题为什么要使用llvm加速而不是继续优化jvm codegen实现介绍-llvm 版本sql引擎设计如何与spark集成benchmark数据 vs spark3.0

1523 0 0

Dev-Talk

视频

半小时，将你的Spark SQL模型变为在线服务

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题相对传统实现方式我们优势 SparkSQL实时上线demo讲师：王太泽第四范式特征工程数据库负责人曾在百度担任资深研发工程师一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。

1966 54 54