云上大数据的存储方案设计和选择
上云拐点已来,开源大数据上云是业界共识。如何满足在云上低成本存储海量数据的同时又实现高效率弹性计算的潜在需求?放眼业界,都有哪些成熟存储方案和选择?各自适用的存储和计算场景是什么?背后的技术关键和考虑因素都有哪些?欢迎大数据技术爱好者面对面交流和探讨!嘉宾介绍姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作;苏昆辉,花名抚月,阿里巴巴计算平台事业部 EMR 高级工程师, 曾就职于华为、网易. Apache HDFS committer. 对Hadoop、HBase等有深入研究, 对分布式存储、高性能优化有丰富经验. 目前从事大数据云化相关工作.
使用分布式自动机器学习进行时间序列分析
对于时间序列预测搭建机器学习应用的过程非常繁琐且需要大量经验。为了提供一个简单易用的时间序列预测工具,我们将自动机器学习应用于时间序列预测,将特征生成,模型选择和超参数调优等过程实现自动化。我们的工具基于Ray(UC Berkeley RISELab开源的针对高级AI 应用的分布式框架,并作为Analytics zoo(由intel开源的统一的大数据分析和人工智能平台)的一部分功能提供给用户。嘉宾介绍喻杉,Intel大数据分析团队软件工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发自动机器学习组件。在加入intel前,她在浙江大学获得了学士和硕士学位。
阿里云大数据+AI技术沙龙上海站
数据成为人工智能时代新的石油,其价值愈发弥足珍贵,它赋予了我们洞察真实世界的能力。伴随海量数据指数级激增和计算场景更加多样化,软硬件基础设施建设面临巨大的技术挑战,应用系统运维成本也节节攀高,如何消除数据通向 AI 的鸿沟,大数据服务云化和上云作为有效措施成为一个必然趋势。阿里云 EMR 团队,致力于为客户提供开源大数据 Hadoop/Spark 生态基于云端的一站式,高可用弹性计算平台。EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合Intel及开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。活动议程更多信息阿里云大数据+AI技术沙龙上海站
Spark on Kubernetes & YARN
以Kubernetes为代表的云原生技术越来越流行起来,spark是如何跑在Kubernetes之上来享受云原生技术的红利?Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别?以及Kubernetes 和YARN的差异点是什么。讲师介绍何剑,阿里巴巴高级技术专家,专注于Kubernetes容器云和大数据底层调度以及基础架构,负责阿里巴巴容器平台在线服务和离线计算任务混部。此前就职于Hortonworks, 是Hadoop 社区Committer和PMC成员
如何有效降低大数据平台的安全风险 | 大数据企业级服务专场
如何有效降低大数据平台的安全风险-李雪峰_大数据企业级服务专场嘉宾介绍李雪峰
一条SQL在MaxCompute之旅(技术快闪)| 大数据技术专场
一条SQL在MaxCompute之旅(技术快闪)嘉宾介绍振禹 颖达 谢宁
混合云模式下MaxCompute +Hadoop混搭大数据架构实践 | 大数据企业级服务专场
混合云模式下MaxCompute +Hadoop混搭大数据架构实践-斗鱼张龙_大数据企业级服务专场嘉宾介绍张龙
待集成、连接、丰富—MaxCompute生态再出发 | 大数据生态专场
待集成、连接、丰富—MaxCompute生态再出发-李睿博_大数据生态专场嘉宾介绍李睿博
New Developments in the Open Source Ecosystem_ Apache Spark 3.0 and Koalas-李潇
New Developments in the Open Source Ecosystem_ Apache Spark 3.0 and Koalas-李潇
【基于Spark与TensorFlow的机器学习实践】
Apache Spark是目前最火热的计算框架,而TensorFlow是目前最火热的机器学习框架,当他们2个碰撞到一起的时候,也会产生巨大的能量。本议题会介绍EMR和PAI在这个上面的实践。主讲人吴威(无谓), 阿里巴巴高级技术专家,2008年加入阿里巴巴集团,先后在B2B和阿里云工作,一直从事大数据和分布式计算相关研究,作为主要开发和运维人员经历了阿里内部大数据集群的上线和发展壮大,现在阿里云EMR团队,负责Spark、Hadoop等计算引擎研发。江宇,阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设
【云上大数据的一种高性能数据湖存储方案】
大数据上云是业界普遍共识,存储和计算分离的趋势日益显著,如何为云上蓬勃发展的大数据处理和分析引擎提供坚实的存储基础?这个 session 会主要讨论 EMR 技术团队重磅推出的一种新型混合存储解决方案,该方案基于云平台和云存储,面向新的存储硬件和计算发展趋势,为 EMR 弹性计算量身打造,在成本,弹性和性能上追求极佳平衡。技术上是如何实现的?性能如何?覆盖了哪些典型场景,最佳实践是什么?敬请期待!主讲人殳鑫鑫(辰石),阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。徐铖, Intel大数据团队软件开发经理
【EMR打造高效云原生数据分析引擎】
EMR-Jindo 是 EMR 推出的云原生 OLAP 引擎。凭借该引擎,EMR 成为第一个云上 TPC-DS 成绩提交者。经过持续不断地内核优化,目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高,达到了3615071,成本降低到 0.76 CNY。本次分享将介绍 EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。主讲人辛现银(辛庸),阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。
【New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas】
Apache Spark 3.0 and Koalas的最新进展主讲人李潇,Databricks Spark 研发总监,管理一跨国团队,专注于 Apache Spark 和 Databricks Runtime 的开发和建设。他是 Apache Spark 项目管理委员会成员。本科毕业于南京理工大学,后在佛罗里达大学(University of Florida)获计算机博士学位, 曾就职于 IBM,获发明大师称号(Master Inventor),在数据处理领域发表专利十余篇。(Github: gatorsmile)
阿里巴巴大数据产品最新特性介绍—智能推荐|2019大数据技术公开课第四季
本次直播将介绍智能推荐AIRec产品冷启动、推荐配置、数据监测等重点feature和典型场景方案,帮您快速了解智能推荐产品。直播嘉宾闫勖勉(三秋) 阿里云智能事业群 高级解决方案工程师
阿里巴巴大数据产品最新特性介绍—实时计算|2019大数据技术公开课第三季
介绍阿里云实时计算团队推出的基于Flink的新产品形态—Flink on Kubernetes模式。重点介绍开源Flink1.9的主要功能和实时计算产品基于Flink1.9产品化版本Ververica企业版核心优势。 <br/> 直播嘉宾:张荣 阿里云智能事业群 产品专家
阿里巴巴大数据产品最新特性介绍—MaxCompute|2019大数据技术公开课第三季
本次直播将为您讲解MaxCompute产品近期最新发布的feature,涵盖SQL多项最新功能、预付费资源监控报警、IP白名单支持IPV6以及Logview中增加SQL复杂度等内容。 直播嘉宾: 曲宁 阿里云智能事业群 产品专家 <br/>
新零售---图书行业基于MaxCompute构建数据中台
中金易云(浙江新华书店)基于MaxCompute构建图书行业数据中台。打通全国1000多家出版机构,20多个发行集团,5000多家零售门店的数据,以大数据思维方法论重构图书出版发行行业。MaxCompute统一的存储、计算引擎和数据开发平台,提供全局的数据资源视图。计算资源可根据项目需要动态调整,快速生效。同时提供多租户隔离机制,各部门可独立管理自身的数据,独立做数据权限管理。
新零售---衣二三基于MaxCompute的最佳实践
作为亚洲最大的共享时装月租平台,衣二三基于MaxCompute构建个性化、智能化运营工具,完成了精准的商品分析和采购指导。MaxCompute 不仅数据吞吐量大,查询性能好,更具备可视化任务编辑界面,易于上手,省去复杂作业运维工作。使用成本低,并能与阿里云大数据产品 生态融为一体。
基于阿里云MaxCompute构建企业云数据仓库CDW的最佳实践建议 | 大数据技术公开课第二季
大数据技术公开课第二季直播详情>>>
构建企业级大数据平台的经验和对未来的思考 | 大数据技术公开课第二季
大数据技术公开课第二季直播详情>>>![image]
从 Apache ORC 到 Apache Calcite | 第二讲 春蔚专访 《MaxCompute 与 Calcite 的技术和故事》
【直播主题】春蔚专访《MaxCompute 与 Calcite 的技术和故事》【分享嘉宾】雷春蔚 阿里云智能计算平台 高级开发工程师 / Apache Calcite Committer / 华中科技大学硕士【直播时间】5月30日 16:00-16:50【精彩剧透】什么是Apache Calcite开源项目?MaxCompute在SQL层面做了哪些优化?如何进入大数据行业?又如何一步步成为Calcite committer?【系列直播预告】6月6日 16:00-16:50 苑海胜专访 《MaxCompute 与大数据查询引擎的技术和故事》
飞天技术汇第27期 大数据产品家族新功能发布会
获奖用户信息填写地址: https://survey.aliyun.com/survey/AgDLQqOP7 点击聚能聊畅所欲言: 【阿里云新品发布】开启新一代数据智能开发之路: https://yq.aliyun.com/roundtable/325525 了解更多产品详情,欢迎点击: https://et.aliyun.com/bigdatarelease 本次阿里云有6款大数据联合发布,分别是: DataWorks 智能SQL引擎:大大提升数据开发者Coding-效率,更加自然、智能的体验享受 机器学习PAI AutoML:参数自动化调优,为算法工程师节省大量调参工作,并输出好的模型 全新的分析产品DataLake Analytics:计算存储相分离,OSS数据分析最佳拍档,极低的分析成本 MaxCompute底层存储升级: EMR 一体化云上工作平台: Elasticsearch智能运维和离线平台: 议程如下: 13:30-14:00 《新一代智能数据工场》——士诚 14:00-14:30《机器学习PAI AutoML技术解析》——傲海 14:30-15:00《实践演练:云上编程应用》——祝星 15:00-15:30《无服务器分析架构最佳实践Data Lake Analytics》—长风 15:30-16:00《大数据计算服务MaxCompute底层存储升级解析》— 圣远 16:00-16:30《EMR:一体化Hadoop云上工作平台》—— 雷飙 16:30-17:00《Elasticsearch智能运维与离线平台》——洪阳 下载阿里云APP二维码,新品发布会抢先看:
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。