一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进

简介: 本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技,一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系,解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持,显著提升数据处理性能与业务响应速度,降低运维成本,为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻,并推动AI技术深度整合,迈向智能化云原生数据平台。

一.背景介绍


一体系汽配供应链平台(以下简称一体系),专注提供高品质发动机、变速箱、底盘技术零部件,融汇优质实体资源和创新互联网科技,为上游品牌商提供高效的下沉渠道,为下游零售商带来可信赖的产品和服务,让采购更便捷可靠,实现行业数字化转型。

  • 随着企业对实时数据分析、AI 能力和大规模数据处理的需求不断增长,平台数据量庞大且持续增长、数据呈现半结构化及非结构化等特点的现状,传统的本地大数据平台在存储、弹性、成本、运维复杂度、深度挖掘、AI 支持等方面逐渐暴露出瓶颈。与此同时,云计算的成熟与普及催生了全新的“ Serverless 数据计算架构”,为构建下一代云原生数据平台提供了可能。
  • 阿里云 E-MapReduce(简称:EMR)推出的 EMR Serverless Spark 和 EMR Serverless StarRocks,正是这一趋势下的重要技术产品。这两个产品结合阿里云一站式数据开发治理平台 DataWorks,共同构建了一个高效、灵活、低成本的数据分析体系。

为了应对新的业务挑战,一体系选择与阿里云合作,利用其强大的 EMR 平台,构建了符合业务场景和分析师习惯的工程解决方案。

本文将从架构演进的角度出发,探讨如何通过 EMR Serverless Spark 和 DataWorks 实现从传统 Hadoop 平台向云原生架构的平滑迁移与持续优化


二.为什么选择阿里云 EMR Serverless Spark

EMR Serverless Spark 是一款兼容开源 Spark 的高性能 Lakehouse 产品。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,无需用户管理底层集群即可直接提交作业,支持批处理和流式计算。使用户能更专注于数据分析和价值提炼。


  • 丰富的功能支持:支持权限管理、资源配额与任务隔离。兼容 Apache Spark API,现有任务可无缝迁移。
  • 灵活的计费方式:仅对实际使用的 CPU、内存和执行时间计费。
  • 良好的引擎性能:内置 Spark Native Engine,相对开源版本性能提升3倍。
  • 完善的服务保障:根据任务负载动态分配资源,提升性能与成本效益。无需关注集群部署、扩缩容、故障恢复等底层操作。


三.技术方案设计


一体系通过阿里云 EMR Serverless Spark,实现了数据与 AI 技术的有效融合,并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台。该平台核心部分如下:


首先,上游数据通过 DataWorks 的数据集成,实时以 Apache Paimon 格式写入数据湖,写入时开启自动 Compaction,用于平衡写入和读取性能。同时湖表元数据同步至 DLF,以保持数据的实时性。


其次,通过 Serverless Spark 构建了数仓经典分层架构,95%的数据源采用 DataWorks 数据集成的实时入湖(ODS),经过清洗转化为明细数据(DWD),然后根据主题将明细层数据轻度聚合(DWS),再根据特定应用或业务场景提供高质量的指标数据(ADS),为上层业务系统提供支持。


在 BI 应用方面,一体系通过 DataWorks 调度 StarRocks 任务,通过使用异步物化视图,加速数据湖查询,为数据湖中的报表和应用实现更高的并发,以及更好的性能。同时将 StarRocks 本地表中的实时数据与数据湖中的历史数据关联起来以进行增量计算。为上层应用提供 Dashboard 和报表支持,提升了数据的可视化和决策能力。


在 ML/AI 应用方面,一体系通过 DataWorks 调度 Spark  任务,进行数据的计算和聚合,处理后的指标数据从数据湖推送到了 AI 知识库,推动了 Data + AI 技术在实际业务中的应用。

以下架构图展示了如何利用 Serverless Spark 结合开源湖格式 Paimon、ML/AI 的多种工具库,以及阿里云 DLF 统一湖仓管理平台,实现高效的数据处理和 AI 赋能,使用 Serverless StarRocks 实现极速数据分析,为业务应用带来显著的提升。


640 - 2025-06-18T164305.127.png



四.数据平台演进


第一阶段(评估),明确现状与目标,选型阶段我们做了很多的调研,综合各个方面考虑(湖仓一体、存算分离、弹性伸缩、开箱即用、运维监控、长期支持等),选择一个成熟且统一的平台:既能够支持数据处理、数据分析场景,也能够很好地支撑数据科学场景,于是选择了阿里云 EMR。

第二阶段(适配),任务兼容性验证,基于原数据平台 Apache Ambari+Azkaban 的构建,梳理 Hadoop 任务、依赖关系、数据流向等,将作业适配到 EMR Serverless 环境,测试性能与稳定性,确保 Spark SQL、UDF、依赖库等均兼容 EMR Serverless Spark。

第三阶段(迁移),分批切换任务,在 DataWorks 中创建新任务和流程编排,使用 Spark 作为计算引擎,逐步替代原有脚本和 jar 包,将数据迁移到 OSS 或 OSS-HDFS 中,实现存储与计算解耦。

第四阶段(优化),性能调优与成本控制,EMR Serverless Spark 提供了 Fusion 引擎,性能提升显著。StarRocks 提供了可视化慢 SQL,及 SQL 查询分析能力,方便运维管理。利用 Serverless 特性优化资源配置,提升性价比。

第五阶段(治理),统一平台管理,借助 DataWorks 实现任务统一调度、监控与治理,结合 EMR Serverless Spark 和 EMR Serverless StarRocks 的一站式的数据平台服务,极大地简化了数据处理的全生命周期工作流程。


五.业务场景介绍


随着企业加速数字化应用的广度和深度,平台运营数据成为驱动业务增长、改善用户体验、提升运营效率的核心资产。数据处理架构满足了日益增长的数据量、实时性要求及灵活分析能力的需求,不仅解决了企业在日常海量运营数据分析的性能瓶颈、成本压力与运维难题,更为企业提供了敏捷开发、智能分析、持续演进的能力支撑。


场景1基于业务交易端到端数据的深度应用,动态、灵活制定运营策略,指导各业务端开展针对性的工作,达到公司中、短期目标。


  • EMR Serverless Spark:对来自多个系统的交易数据进行清洗、合并、维度建模。
  • DataWorks:统一编排每日/每小时任务,保障数据准时产出。
  • OLAP 引擎:使用 StarRocks 进行实时查询与可视化分析。
  • ML 模型集成通过 Spark MLlib 接入模型,进行特定场景针对性的策略制定。


场景2客户服务分析对于提升客户满意度、增强品牌忠诚度以及优化整体运营效率至关重要。通过全面的数据分析,快速识别客户服务中的薄弱环节,制定有效的改进措施。


  • EMR Serverless Spark负责对业务全过程数据的清洗、聚合计算
  • DataWorks:统一调度 Spark 任务,管理依赖关系,保障任务链稳定性。
  • StarRocks:用于物化视图加速湖仓数据,交互式查询与报表展示。
  • 报表对接:通过统一接口将分析结果接入报表系统。


六.Serverless Spark 产品优势

  • 云原生极速计算引擎

内置 Spark Native Engine,相对开源版本性能提升3倍; 内置企业级 Celeborn (Remote Shuffle Service),支持 PB 级 Shuffle 数据,计算资源总成本最高下降 30% 。

  • 弹性资源管理

资源调度具备秒级弹性,支持按需分配最小粒度为 1 核的资源,按任务或队列级别进行精细化资源计量,确保资源使用的最大化与灵活性。

  • DATA 和 AI

提供完全兼容 PySpark/Python 的开发与运行环境,支持 Python 生态的机器学习 Lib,以及 Spark MLlib,支持产品化管理 Python 三方依赖库。

  • 生态兼容

具备强大的兼容性与集成能力。支持 DLF 和 Hive MetaStore 数据目录,兼容 Paimon、Iceberg、Hudi 和 Delta 等主流湖格式,可对接 Airflow 和 Dolphin Scheduler 等主流调度系统,支持 Kerberos/LDAP 认证和 Ranger 鉴权,还支持 DataWorks 和 DBT 提交任务,全方位满足用户需求。

七.迁移后的收益

技术层面:

  • 数据入湖:
  • 采用了 Apache Paimon 作为数据湖存储格式,并集成了 Apache Spark、Flink 作为计算引擎,构建了一个完整的数据湖仓系统。这一系统已经在实时数据监控和分析等场景中得到了成熟的应用,显著提升了我们的数据处理能力和业务效率。
  • 研发效率:

  • 迁移到 EMR Serverless Spark + DataWorks架构后,使用 Spark SQL 会话功能快速开发验证+DataWorks 生产调度的模式,研发效率显著提升,保障了关键业务的数据产出支持。
  • 运维保障:
  • EMR Serverless Spark 的多版本管理能力为用户提供了灵活的选择空间,支持快速升级至最新优化版本,自动化的扩缩容、故障恢复等功能减少了手动干预的需求,降低运维压力。

业务层面:

  • 数据响应时长:大量作业由小时级提高到分钟级,生产速度得到大幅提升。
  • 弹性伸缩能力根据任务的实际需求动态调整资源规模,确保在高峰期也能保持良好的性能表现,同时在低谷期节省开支。


八.总结及后续期待


我们基于阿里云 EMR Serverless Spark 技术栈快速构建了全新的大数据平台,相比开源版本3倍以上的性能优势以及计算/存储分离的架构,极大提升了我们数据团队的效能,为开展业务分析提供快速数据交付能力。从传统 Hadoop 到 Serverless Spark,不仅是技术架构的升级,更是企业数据能力的一次质变,构建了一个面向未来的一体云原生数据平台,为 AI 应用的深度融合,奠定数字化基础

EMR Serverless Spark 助力我们实现高效、弹性、易维护的数据处理,迈向更智能、更敏捷的云原生数据平台。未来可期,继续携手前行!”

—— 体系平台架构师

相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
DataWorks 数据挖掘 Serverless
阿里云EMR Serverless StarRocks 内容合集
阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。
300 0
|
6月前
|
分布式计算 运维 监控
Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速
本文介绍了流利说与阿里云合作,利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司,通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点,采用EMR Serverless Spark后,实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力,支持多种接入方式与高效调度。迁移后任务耗时减少40%,失败率降低80%,成本下降30%。未来将深化合作,探索更多行业解决方案。
362 1
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
288 14
|
5月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
191 4
|
4月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
177 0
|
5月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
328 3
|
5月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。
|
3月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
156 14
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。

热门文章

最新文章