FFA 2023 「流式湖仓」专场:从技术原理到应用实践打造流式湖仓新架构

简介: 今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

图片

今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

流式湖仓专场邀请阿里云智能、联通、同程旅行、汽车之家、OPPO、网易、滴滴、镜舟科技、广联达、平安证券、快手等企业技术专家解读基于 Flink + Paimon 构建流式数据湖相关问题,更有基于 Paimon + StarRocks、Flink + Paimon + Hologres、Paimon + Spark 的流式湖仓最佳应用实践与分析。

Apache Paimon:Streaming Lakehouse is Coming

李劲松|阿里云智能开源表存储负责人,Founder of Paimon,Flink PMC 成员

议题介绍:

分享介绍基于 Flink 和 Paimon 构建 Streaming Lakehouse,加速数据湖的数据实时流动和分析,为用户提供流式数据更新入湖和流式分析的能力,同时提供批式数据湖分析。分享大致内容:

一、Streaming Lakehouse 是数据湖新架构,为什么选用 Flink + Paimon

二、Paimon 的发展历程,核心能力,如何解决数据湖的流动

三、Paimon 的生态阵容,各大企业如何集成 Paimon,解决了什么问题

四、Paimon 在阿里云上的实践

五、总结

联通基于 Flink&Paimon 的流式数据湖应用实践

王云朋|联通数科大数据高级技术专家,Apache Paimon Contributor

李振豪|联通数科大数据高级技术专家

议题介绍:

本议题计划介绍联通基于 Flink&Paimon 构建流式数据湖的实践经验,主要包括两个联通核心业务的项目,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Flink&Paimon 解决的问题、达到的效果,以及未来规划方面进行介绍。

一、业务背景介绍

二、业务要求和痛点分析

三、基于 Flink&Paimon 的湖仓实践

四、Flink&Paimon 应用中遇到的问题及生产优化

五、未来规划

同程旅行基于 Apache Paimon 的数据湖实践

吴祥平|同程旅行大数据计算组负责人

欧阳佳|同程旅行数据开发工程师

议题介绍:

一、Paimon引入

1.1 引入背景

1.2 引入效果

二、Paimon 优化实战

2.1 写入性能和稳定性

2.1 读取性能和稳定性

2.3 丢数据问题

三、Paimon 生态建设

3.1 生态建设

3.1.1 Paimon 集成 Trino

3.1.2 表服务管理

3.1.3 Binlog 结构自动演进

3.1.4 指标监控

四、未来规划

4.1 数据湖仓云上能力

4.2 数据湖加速(集成SR)

4.3 加速实时数仓构建

汽车之家基于 Paimon 的应用实践

王刚|汽车之家高级数据工程师

议题介绍:

一、业务背景

二、基于 Paimon 的业务场景

2.1 实时湖仓的业务实践

2.2 遇到的问题及解决方案

2.3 业务收益

三、基于 Paimon 的平台实践

3.1 StarRocks 集成 Paimon 加速查询

3.2 基于 Metric 的自助诊断功能

四、未来规划:

4.1 实时平台集成 Paimon Web UI

4.2 流式数仓的血缘关系与数据修复

OPPO Data&AI 统一实时湖仓实践之路

付庆午|OPPO 大数据架构师

议题介绍:

一、OPPO Data&AI 一体实时湖仓,支持大数据降本增效,助力 AndesGPT 落地数据业务

二、实时湖仓架构演进,介绍 OPPO 实时湖仓从单纯 Flink+Iceberg 逐步演进出来 Flink+Glacier,解决多种数据实时入湖,流式数据读写,实时查询,实时索引构建,实时同步 schema 变化,元数据统一服务以及流批一体开发遇到的问题

三、实时特征工程平台构建,基于实时湖仓+Flink,实现流批一体特征工程数据开发,PB级特征实时更新,助力业务降本增效

四、统一 Data&AI 实时湖仓平台,大模型文本训练数据入湖,实现加速大语言模型训练

五、展望,Data&AI 统一实时湖仓将继续提升数据的实时性,提供高性能的数据+AI服务

在阿里云上构建 Flink + Paimon 流式湖仓

翁才智|阿里云智能高级开发工程师,Apache Paimon PPMC,Apache Flink Committer

议题介绍:

一、介绍以 Flink + Paimon 为核心,在阿里云上构建流式湖仓的架构。

二、介绍离线场景下的应用:离线数仓的数据更新与合并需要重算大量数据,成本较高,而 Paimon 的更新能力可以解决这个问题。 介绍如何在阿里云上将基于 MaxCompute 的离线数仓升级为 Flink + Paimon + MaxCompute 的流式湖仓。

三、介绍实时场景下的应用:基于 Flink 的实时数仓虽然能达到秒级延时,但涉及 state 的计算成本较高。如果用户可以接受分钟级延时,可以使用 Paimon 在部分场景下代替 state 相关的运算,从而降低成本。 介绍如何在阿里云上将基于 Flink + Hologres 的实时数仓改为 Flink + Paimon + Hologres 的流式湖仓。

网易基于 Flink+Paimon+Amoro 的流式湖仓实践

周劲松|网易平台开发专家,Amoro Mantainer, Apache Paimon Conrtributor

本次分享将先通过网易在数据湖与数据仓库建设的历史过程和遇到的问题,引出公司对具有流批一体特性的湖仓一体存储方案的需求。然后介绍网易开源湖仓管理平台 Amoro 的定位和核心特性。Paimon 的出现弥补了 Iceberg 在流式湖仓下很多场景的不足,Amoro 集成了 Paimon 并在网易内部基于 Paimon 和 Amoro 在流式湖仓场景进行了大量的业务实践,分享将着重介绍实践案例和带来的业务价值。最后总结并分享未来在研发和实践上的一些规划。分享大致内容:

一、网易湖仓建设背景

二、湖仓管理平台 Amoro

三、Amoro 集成 Paimon

四、Paimon + Amoro 业务实践

五、总结与未来规划

Flink + Paimon + Hologres 湖仓一体数据分析

喻良|阿里云智能高级技术专家

一、传统湖仓库实现方案

二、Flink + Paimon+Hologres 构建湖仓一体数据分析实现方案

2.1 Flink + Paimon 构建数据湖中心

2.2 Hologres 进行查询加速

2.3 Hologres 实现实时数仓

三、Hologres 湖仓一体的技术架构和使用介绍

3.1 介绍 Hologres 湖仓一体的技术架构

3.2 Hologres 加速湖上 Paimon 数据使用介绍

3.3 查询、导入

四、Hologres 湖仓分析未来规划

使用 Paimon+StarRocks 极速批流一体湖仓分析

王日宇|阿里云智能高级开发工程师,StarRocks Committer

议题介绍:

一、Paimon+Starrocks 的各类使用场景介绍

二、使用 Paimon+StarRocks 数据湖分析的技术原理

三、使用 Paimon+StarRocks 构建实时数仓方案介绍

四、Paimon+StarRocks 未来的技术规划

滴滴基于 Flink 在流批一体和数据湖方向的探索和实践

岳猛|滴滴 Flink 引擎负责人,Flink/Hudi/Calcite/ZK Contributor

议题介绍:

滴滴围绕 Flink 进行流批一体和数据湖方向上的技术探索和实践,包括介绍使用 Flink streaming/Batch sql 如何完成流批一体能力的建设以及 Flink + Hudi 在滴滴数据湖场景的技术探索和业务落地等。分享大致内容:

一、为什么要引入流批一体架构

二、基于 Flink 的流批一体的架构的实现

三、流批一体在业务场景的落地

四、Flink & Hudi 技术背景介绍

五、实时入湖建设经验

六、在特征和近实时场景的实践总结

七、流批一体和数据湖技术在滴滴的未来规划

Paimon x Spark:不止于数据入湖

毕 岩|阿里云智能开源大数据平台技术专家

邹欣宇|阿里云智能开源大数据平台开发工程师

议题介绍:

一、Paimon 在 Spark 生态的发展

二、Paimon 在湖仓架构下的典型案例

三、Paimon 通过 Gluten/Volex 加速查询

四、未来规划

基于 Flink&StarRocks 构建新一代数据底座

石强|镜舟科技解决方案架构师

议题介绍:

一、传统 hadoop 数据底座方案的介绍和痛点

二、新数据底座方案的介绍和优势

三、架构升级的预期收益

四、客户案例介绍

五、未来与展望

基于 Flink+Paimon 的大数据平台的建设

张军|广联达数据中台部门担任大数据架构师

议题介绍:

一、背景

  • 为了适应业务的不断发展,公司从传统行业逐渐在做数字化转型,在这个过程中要根据客户的业务场景构建自己的大数据平台,很多业务需要能实时的感知数据变化,以便及时的根据数据的变化做出决策,所以能支持实时的数据变更和处理变得非常重要。所以经过对比,在我们的大数据底座建设过程中,我们选用了 Paimon 作为数据湖存储,使用 Flink 作为流处理的引擎。

二、Flink+Paimon 选型

  • 根据具体的业务场景对大数据架构的存储和计算框架进行选型

三、经典应用场景

四、未来规划

  • 基于 Flink 的 Paimon 批处理查询

  • 提高 Flink 流读 Paimon 的时效性

  • 对 Paimon 持续优化,比如 cache catalog、cache manifest、prefix index 等。

平安证券 Flink+Paimon 的实时架构实践

张 兴|平安证券经纪事业部大数据基础架构负责人

汪超飞|平安证券经纪事业部大数据基础架构工程师

议题介绍:

一、架构介绍

1.1 原有 Flink+HBase 架构介绍

1.2 新的 Flink+Paimon 架构介绍

1.3 新架构带来的变化

二、在开户场景中的实践

2.1 原有任务实现方式介绍

2.2 通过 Flink+Paimon 改造介绍

2.3 架构变化后对业务的提升

快手数据湖在实时场景的建设与实践

钟靓|快手技术专家,Hudi Contributor

议题介绍:

快手数据湖已经在内部开始规模化应用,在时效、资源、效率上均有明显收益。通过数据入湖,在数仓、业务数据范围,打造了新的数据管理架构和生产模式。此次分享内容,主要从典型场景实践出发,讲解技术架构的设计。由三个部分构成:

一、Mysql2Hudi : 实时入湖构建分钟级快照 ods

二、kafka2Hudi : 实时入湖构建动态分区 dwd

三、流批统一:

3.1 样本入湖:搜索、广告、推荐系统训练任务的流批统一

3.2 分层入湖:数仓实时离线任务的流批统一


Flink Forward Asia 2023

▼ 「大会官网」扫码立即参会报名 ▼

图片

点击议题,即可查看议题详情以及讲师介绍

Flink Forward Asia 2023 合作伙伴

图片


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
6月前
|
数据采集 监控 API
移动端性能监控探索:iOS RUM SDK 技术架构与实践
阿里云 RUM SDK 作为一款性能体验监控采集工具,可以作为辅助 App 运维的强有力助手,提升您的问题排查效率。
385 55
|
6月前
|
存储 运维 分布式计算
零售数据湖的进化之路:滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践
在数字化浪潮席卷全球的今天,传统零售企业面临着前所未有的技术挑战和转型压力。本文整理自 Flink Forward Asia 2025 城市巡回上海站,滔搏技术负责人分享了滔搏从传统 Lambda 架构向阿里云实时计算 Flink 版+Paimon 统一架构转型的完整实战历程。这不仅是一次技术架构的重大升级,更是中国零售企业拥抱实时数据湖仓一体化的典型案例。
446 0
|
7月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
7月前
|
数据采集 存储 运维
MyEMS:技术架构深度剖析与用户实践支持体系
MyEMS 是一款开源能源管理系统,采用分层架构设计,涵盖数据采集、传输、处理与应用全流程,支持多协议设备接入与多样化能源场景。系统具备高扩展性与易用性,结合完善的文档、社区、培训与定制服务,助力不同技术背景用户高效实现能源数字化管理,降低使用门槛与运维成本,广泛适用于工业、商业及公共机构等场景。
304 0
|
6月前
|
存储 SQL 消息中间件
从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践
查询性能实现从秒级到毫秒级的跨越式提升
|
6月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
486 6
|
7月前
|
人工智能 Cloud Native 中间件
划重点|云栖大会「AI 原生应用架构论坛」看点梳理
本场论坛将系统性阐述 AI 原生应用架构的新范式、演进趋势与技术突破,并分享来自真实生产环境下的一线实践经验与思考。
|
8月前
|
SQL 存储 运维
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
本文介绍了 Apache Doris 在菜鸟的大规模落地的实践经验,菜鸟为什么选择 Doris,以及 Doris 如何在菜鸟从 0 开始,一步步的验证、落地,到如今上万核的规模,服务于各个业务线,Doris 已然成为菜鸟 OLAP 数据分析的最优选型。
458 2
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
|
7月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
7月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
1206 0