云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。

演讲人:

王峰|阿里云智能集团研究员、开源大数据平台负责人

李钰|阿里云智能集团资深技术专家

范振|阿里云智能集团高级技术专家

李劲松|阿里云智能集团高级技术专家

蒋乾|七猫免费小说数仓负责人

活动: 2024 云栖大会 - 开源大数据专场

基于向量化的大数据计算技术在近几年呈现爆发趋势,Databricks 推出了向量化 Spark 引擎-Photon,Facebook 开源了 Velox 向量化批计算引擎。向量化计算推动离线批计算能力大幅提升,与此同时业务时效性的提升也让企业对于实时流计算有了更多的需求,在这样的背景之下,9月20日2024年云栖大会之上,阿里云阿里云智能集团研究员、开源大数据平台负责人王峰宣布阿里云实时计算 Flink 产品推出业界首款向量化流计算引擎-Flash,100%兼容 Apache Flink 业界流计算标准,且相对开源 Flink 具备5-10倍性能优势,助力企业在大数据实时化升级的道路上降本增效。

image.png

王峰表示:“我们对这项技术充满信心,计划通过阿里云向公有云领域推广,旨在服务于更多中小型客户。特别是那些已采用 Flink 的中小企业,或是云环境中的云原生企业,我们将使它们能够在无需修改代码的前提下,利用新的向量化兼容 Flash 引擎,达到降低成本并提升效率的目的。”

image

目前凭借在阿里巴巴内部生产环境中的超过10个业务部分,10万以上的 CU 规模进行了实际应用和业务测试,Flash 已成功助力业务方节省52%的平均成本,并展现出广泛的应用潜力。阿里云计划采取分阶段策略推广 Flash,以确保产品的稳定性和可靠性,同时也鼓励感兴趣的开发者和企业参与测试,共同探索向量化计算在大数据处理领域的更多可能。

开源大数据平台实现全面 Serverless 产品化

近年来随着大数据业务的快速发展和云原生技术的普及,计算服务 Serverless 化已经成为刚需,在本次云栖大会上,阿里云智能集团资深技术专家、EMR团队负责人李钰宣布 EMR Serverless Spark 产品正式启动商业化。阿里云开源大数据平台已全面实现了 Serverless 产品化,包括 EMR Serverless Spark、EMR Serverless StarRocks、Serverless 实时计算 Flink 版等。

EMR Serverless Spark 是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品。该产品自研向量化 Fusion 引擎,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供交互式 Notebook 以及嵌入式 SQL Editor 开发环境、并提供版本管理、工作流调度、监控诊断等一站式平台能力;支持弹性伸缩、按量付费,进一步降低计算成本。结合 DLF 新一代湖仓数据管理平台,助力阿里云客户构建兼容开源和全面开放的数据湖仓解决方案。

Spark一站式全托管湖仓分析利器0913final.png

今年是 EMR Serverless StarRocks 存算一体版本正式商业化一周年,自发布以来已在超过 500+ 生产客户,覆盖 20+ 行业落地,为企业提供稳定高效,开箱即用的全托管企业级数据平台的同时,也面临一些技术场景的挑战,在云栖大会上 EMR Serverless StarRocks 正式宣布推出商业化生产可用的 2.0 存算分离架构,提供了 StarOS 升级、Multi-Warehouse、弹性伸缩、内表优化、湖表优化等能力。

24云栖大会_SR_范振_0913.png

近年来,通过对大数据业务和在线业务进行离在线负载混部实现降本增效,逐渐成为客户的通用诉求。在2024 云栖大会上,李钰发布了EMR 管控平台的全面升级:EMR on ACS 引入了与ACS的无缝集成、资源队列和定额(Quota)管理、作业监控及诊断分析功能,并新增对多计算引擎的支持;而在 EMR on ECS 产品形态中,全新推出了自动化弹性伸缩与智能化诊断分析能力。这些增强的能力都将助力客户智能化的实现在离线混部和降本增效。

EMR管控全面升级-20240913_final.png

阿里云湖仓架构全面升级

随着数据湖和数据仓库技术的不断演进,湖仓架构开始在数据基础设施中发挥关键作用可帮助企业快速构建一体化数据分析平台,加速获取 AI 赋能的业务洞察,有效降低数据基础设施与管理成本。在这样的行业趋势之下,Apache Paimon 作为一种高性能、高扩展性的存储层,正成为构建实时湖仓架构的关键技术之一。阿里云智能集团高级技术专家李劲松在2024云栖大会上介绍到了 Paimon 的发展历史以及 Apache Paimon 在 Streaming+实时场景的优势。Apache Paimon 作为一种高性能、高扩展性的存储层为用户提供了数据湖实时流式处理、湖上 OLAP 加速、数据湖非结构化处理等技术方案。Paimon 自2022年从Flink社区开始孵化以来,短短两年,已在越来越多的公司及场景落地,帮助业务更实时、更开放、成本更低的构建湖仓架构。结合在2024云栖大会正式对外发布的阿里云 OpenLake 解决方案,企业可构建大数据、搜索、AI 一体化的能力体系,实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发,基于数据资产构筑竞争力。

终版Paimon 助力数据湖仓架构实时化升级0914-1.png

七猫免费小说云上数仓实践

在2024年云栖大会的开源大数据专场上,七猫免费小说的数据仓库负责人蒋乾分享了关于云上数据仓库数据治理的最佳实践。借助阿里云EMR的强大技术支持,**七猫免费小说**成功实现了数据仓库架构与数据治理的规范化和流程化演进,核心体现在如下三个方面:

  • 存算分离架构的升级:为数据处理提供了更高的灵活性和扩展性。

  • 元数据和数据血缘的构建:为数据的追踪和管理奠定了坚实的基础。

  • 数据治理实践:在数据治理的过程中逐步形成了规范的体系。

lQDPKd8_ai7TNWPNB9DNC7iwM4ymNbvqCusG1k8XVjzBAA_3000_2000.jpeg

Flink Forward Asia 2024 是一场大数据行业的盛会,将于11月29日至30日在上海举行。这是了解 Flink 社区最新动态和发展计划的绝佳机会,也是与国内外一线厂商分享生产实践经验、交流技术成果的重要平台。参与者可通过官网提交议题或报名参会。现在报名不仅可享受早鸟优惠,参会更有机会获得活动精美周边相送。无论您是开发者还是数据领域的从业者,都不可错过这场汇聚行业精英的盛会!

推文封面-其他平台.png

点击下方报名链接参与议题征集与报名特惠活动:

PC 端:https://asia.flink-forward.org/shanghai-2024/

打开 FFA 2024 官网,点击「立即报名」或「提交议题」

移动端:

扫描下方二维码立即报名

购票.png
欢迎各位踊跃报名,一起分享和学习现下流行新技术!


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?utm_content=g_1000395379&productCode=sc

retouch_2024070417440476.jpg

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
存储 数据采集 分布式计算
大数据技术:开启智能时代的新引擎
【10月更文挑战第5天】大数据技术:开启智能时代的新引擎
|
2月前
|
人工智能 分布式计算 大数据
云栖实录 | MaxCompute 迈向下一代的智能云数仓
2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。
289 0
|
4月前
|
Java Spring 安全
Spring 框架邂逅 OAuth2:解锁现代应用安全认证的秘密武器,你准备好迎接变革了吗?
【8月更文挑战第31天】现代化应用的安全性至关重要,OAuth2 作为实现认证和授权的标准协议之一,被广泛采用。Spring 框架通过 Spring Security 提供了强大的 OAuth2 支持,简化了集成过程。本文将通过问答形式详细介绍如何在 Spring 应用中集成 OAuth2,包括 OAuth2 的基本概念、集成步骤及资源服务器保护方法。首先,需要在项目中添加 `spring-security-oauth2-client` 和 `spring-security-oauth2-resource-server` 依赖。
56 0
|
4月前
|
消息中间件 数据挖掘 Kafka
揭秘大数据时代的极速王者!Flink:颠覆性流处理引擎,让实时数据分析燃爆你的想象力!
【8月更文挑战第29天】Apache Flink 是一个高性能的分布式流处理框架,适用于高吞吐量和低延迟的实时数据处理。它采用统一执行引擎处理有界和无界数据流,具备精确状态管理和灵活窗口操作等特性。Flink 支持毫秒级处理和广泛生态集成,但学习曲线较陡峭,社区相对较小。通过实时日志分析示例,我们展示了如何利用 Flink 从 Kafka 中读取数据并进行词频统计,体现了其强大功能和灵活性。
77 0
|
4月前
|
机器学习/深度学习 监控 大数据
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
|
17天前
|
缓存 负载均衡 JavaScript
探索微服务架构下的API网关模式
【10月更文挑战第37天】在微服务架构的海洋中,API网关犹如一座灯塔,指引着服务的航向。它不仅是客户端请求的集散地,更是后端微服务的守门人。本文将深入探讨API网关的设计哲学、核心功能以及它在微服务生态中扮演的角色,同时通过实际代码示例,揭示如何实现一个高效、可靠的API网关。
|
15天前
|
Cloud Native 安全 数据安全/隐私保护
云原生架构下的微服务治理与挑战####
随着云计算技术的飞速发展,云原生架构以其高效、灵活、可扩展的特性成为现代企业IT架构的首选。本文聚焦于云原生环境下的微服务治理问题,探讨其在促进业务敏捷性的同时所面临的挑战及应对策略。通过分析微服务拆分、服务间通信、故障隔离与恢复等关键环节,本文旨在为读者提供一个关于如何在云原生环境中有效实施微服务治理的全面视角,助力企业在数字化转型的道路上稳健前行。 ####
|
16天前
|
Dubbo Java 应用服务中间件
服务架构的演进:从单体到微服务的探索之旅
随着企业业务的不断拓展和复杂度的提升,对软件系统架构的要求也日益严苛。传统的架构模式在应对现代业务场景时逐渐暴露出诸多局限性,于是服务架构开启了持续演变之路。从单体架构的简易便捷,到分布式架构的模块化解耦,再到微服务架构的精细化管理,企业对技术的选择变得至关重要,尤其是 Spring Cloud 和 Dubbo 等微服务技术的对比和应用,直接影响着项目的成败。 本篇文章会从服务架构的演进开始分析,探索从单体项目到微服务项目的演变过程。然后也会对目前常见的微服务技术进行对比,找到目前市面上所常用的技术给大家进行讲解。
35 1
服务架构的演进:从单体到微服务的探索之旅
|
14天前
|
消息中间件 监控 安全
后端架构演进:从单体到微服务####
在数字化转型的浪潮中,企业应用的后端架构经历了从传统单体架构到现代微服务架构的深刻变革。本文探讨了这一演进过程的背景、驱动力、关键技术及面临的挑战,揭示了如何通过微服务化实现系统的高可用性、扩展性和敏捷开发,同时指出了转型过程中需克服的服务拆分、数据管理、通信机制等难题,为读者提供了一个全面理解后端架构演变路径的视角。 ####
37 8
|
15天前
|
Cloud Native 安全 API
云原生架构下的微服务治理策略与实践####
—透过云原生的棱镜,探索微服务架构下的挑战与应对之道 本文旨在探讨云原生环境下,微服务架构所面临的关键挑战及有效的治理策略。随着云计算技术的深入发展,越来越多的企业选择采用云原生架构来构建和部署其应用程序,以期获得更高的灵活性、可扩展性和效率。然而,微服务架构的复杂性也带来了服务发现、负载均衡、故障恢复等一系列治理难题。本文将深入分析这些问题,并提出一套基于云原生技术栈的微服务治理框架,包括服务网格的应用、API网关的集成、以及动态配置管理等关键方面,旨在为企业实现高效、稳定的微服务架构提供参考路径。 ####
42 5