FFA 2023 「流式湖仓」专场:从技术原理到应用实践打造流式湖仓新架构

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

图片

今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!

流式湖仓专场邀请阿里云智能、联通、同程旅行、汽车之家、OPPO、网易、滴滴、镜舟科技、广联达、平安证券、快手等企业技术专家解读基于 Flink + Paimon 构建流式数据湖相关问题,更有基于 Paimon + StarRocks、Flink + Paimon + Hologres、Paimon + Spark 的流式湖仓最佳应用实践与分析。

Apache Paimon:Streaming Lakehouse is Coming

李劲松|阿里云智能开源表存储负责人,Founder of Paimon,Flink PMC 成员

议题介绍:

分享介绍基于 Flink 和 Paimon 构建 Streaming Lakehouse,加速数据湖的数据实时流动和分析,为用户提供流式数据更新入湖和流式分析的能力,同时提供批式数据湖分析。分享大致内容:

一、Streaming Lakehouse 是数据湖新架构,为什么选用 Flink + Paimon

二、Paimon 的发展历程,核心能力,如何解决数据湖的流动

三、Paimon 的生态阵容,各大企业如何集成 Paimon,解决了什么问题

四、Paimon 在阿里云上的实践

五、总结

联通基于 Flink&Paimon 的流式数据湖应用实践

王云朋|联通数科大数据高级技术专家,Apache Paimon Contributor

李振豪|联通数科大数据高级技术专家

议题介绍:

本议题计划介绍联通基于 Flink&Paimon 构建流式数据湖的实践经验,主要包括两个联通核心业务的项目,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Flink&Paimon 解决的问题、达到的效果,以及未来规划方面进行介绍。

一、业务背景介绍

二、业务要求和痛点分析

三、基于 Flink&Paimon 的湖仓实践

四、Flink&Paimon 应用中遇到的问题及生产优化

五、未来规划

同程旅行基于 Apache Paimon 的数据湖实践

吴祥平|同程旅行大数据计算组负责人

欧阳佳|同程旅行数据开发工程师

议题介绍:

一、Paimon引入

1.1 引入背景

1.2 引入效果

二、Paimon 优化实战

2.1 写入性能和稳定性

2.1 读取性能和稳定性

2.3 丢数据问题

三、Paimon 生态建设

3.1 生态建设

3.1.1 Paimon 集成 Trino

3.1.2 表服务管理

3.1.3 Binlog 结构自动演进

3.1.4 指标监控

四、未来规划

4.1 数据湖仓云上能力

4.2 数据湖加速(集成SR)

4.3 加速实时数仓构建

汽车之家基于 Paimon 的应用实践

王刚|汽车之家高级数据工程师

议题介绍:

一、业务背景

二、基于 Paimon 的业务场景

2.1 实时湖仓的业务实践

2.2 遇到的问题及解决方案

2.3 业务收益

三、基于 Paimon 的平台实践

3.1 StarRocks 集成 Paimon 加速查询

3.2 基于 Metric 的自助诊断功能

四、未来规划:

4.1 实时平台集成 Paimon Web UI

4.2 流式数仓的血缘关系与数据修复

OPPO Data&AI 统一实时湖仓实践之路

付庆午|OPPO 大数据架构师

议题介绍:

一、OPPO Data&AI 一体实时湖仓,支持大数据降本增效,助力 AndesGPT 落地数据业务

二、实时湖仓架构演进,介绍 OPPO 实时湖仓从单纯 Flink+Iceberg 逐步演进出来 Flink+Glacier,解决多种数据实时入湖,流式数据读写,实时查询,实时索引构建,实时同步 schema 变化,元数据统一服务以及流批一体开发遇到的问题

三、实时特征工程平台构建,基于实时湖仓+Flink,实现流批一体特征工程数据开发,PB级特征实时更新,助力业务降本增效

四、统一 Data&AI 实时湖仓平台,大模型文本训练数据入湖,实现加速大语言模型训练

五、展望,Data&AI 统一实时湖仓将继续提升数据的实时性,提供高性能的数据+AI服务

在阿里云上构建 Flink + Paimon 流式湖仓

翁才智|阿里云智能高级开发工程师,Apache Paimon PPMC,Apache Flink Committer

议题介绍:

一、介绍以 Flink + Paimon 为核心,在阿里云上构建流式湖仓的架构。

二、介绍离线场景下的应用:离线数仓的数据更新与合并需要重算大量数据,成本较高,而 Paimon 的更新能力可以解决这个问题。 介绍如何在阿里云上将基于 MaxCompute 的离线数仓升级为 Flink + Paimon + MaxCompute 的流式湖仓。

三、介绍实时场景下的应用:基于 Flink 的实时数仓虽然能达到秒级延时,但涉及 state 的计算成本较高。如果用户可以接受分钟级延时,可以使用 Paimon 在部分场景下代替 state 相关的运算,从而降低成本。 介绍如何在阿里云上将基于 Flink + Hologres 的实时数仓改为 Flink + Paimon + Hologres 的流式湖仓。

网易基于 Flink+Paimon+Amoro 的流式湖仓实践

周劲松|网易平台开发专家,Amoro Mantainer, Apache Paimon Conrtributor

本次分享将先通过网易在数据湖与数据仓库建设的历史过程和遇到的问题,引出公司对具有流批一体特性的湖仓一体存储方案的需求。然后介绍网易开源湖仓管理平台 Amoro 的定位和核心特性。Paimon 的出现弥补了 Iceberg 在流式湖仓下很多场景的不足,Amoro 集成了 Paimon 并在网易内部基于 Paimon 和 Amoro 在流式湖仓场景进行了大量的业务实践,分享将着重介绍实践案例和带来的业务价值。最后总结并分享未来在研发和实践上的一些规划。分享大致内容:

一、网易湖仓建设背景

二、湖仓管理平台 Amoro

三、Amoro 集成 Paimon

四、Paimon + Amoro 业务实践

五、总结与未来规划

Flink + Paimon + Hologres 湖仓一体数据分析

喻良|阿里云智能高级技术专家

一、传统湖仓库实现方案

二、Flink + Paimon+Hologres 构建湖仓一体数据分析实现方案

2.1 Flink + Paimon 构建数据湖中心

2.2 Hologres 进行查询加速

2.3 Hologres 实现实时数仓

三、Hologres 湖仓一体的技术架构和使用介绍

3.1 介绍 Hologres 湖仓一体的技术架构

3.2 Hologres 加速湖上 Paimon 数据使用介绍

3.3 查询、导入

四、Hologres 湖仓分析未来规划

使用 Paimon+StarRocks 极速批流一体湖仓分析

王日宇|阿里云智能高级开发工程师,StarRocks Committer

议题介绍:

一、Paimon+Starrocks 的各类使用场景介绍

二、使用 Paimon+StarRocks 数据湖分析的技术原理

三、使用 Paimon+StarRocks 构建实时数仓方案介绍

四、Paimon+StarRocks 未来的技术规划

滴滴基于 Flink 在流批一体和数据湖方向的探索和实践

岳猛|滴滴 Flink 引擎负责人,Flink/Hudi/Calcite/ZK Contributor

议题介绍:

滴滴围绕 Flink 进行流批一体和数据湖方向上的技术探索和实践,包括介绍使用 Flink streaming/Batch sql 如何完成流批一体能力的建设以及 Flink + Hudi 在滴滴数据湖场景的技术探索和业务落地等。分享大致内容:

一、为什么要引入流批一体架构

二、基于 Flink 的流批一体的架构的实现

三、流批一体在业务场景的落地

四、Flink & Hudi 技术背景介绍

五、实时入湖建设经验

六、在特征和近实时场景的实践总结

七、流批一体和数据湖技术在滴滴的未来规划

Paimon x Spark:不止于数据入湖

毕 岩|阿里云智能开源大数据平台技术专家

邹欣宇|阿里云智能开源大数据平台开发工程师

议题介绍:

一、Paimon 在 Spark 生态的发展

二、Paimon 在湖仓架构下的典型案例

三、Paimon 通过 Gluten/Volex 加速查询

四、未来规划

基于 Flink&StarRocks 构建新一代数据底座

石强|镜舟科技解决方案架构师

议题介绍:

一、传统 hadoop 数据底座方案的介绍和痛点

二、新数据底座方案的介绍和优势

三、架构升级的预期收益

四、客户案例介绍

五、未来与展望

基于 Flink+Paimon 的大数据平台的建设

张军|广联达数据中台部门担任大数据架构师

议题介绍:

一、背景

  • 为了适应业务的不断发展,公司从传统行业逐渐在做数字化转型,在这个过程中要根据客户的业务场景构建自己的大数据平台,很多业务需要能实时的感知数据变化,以便及时的根据数据的变化做出决策,所以能支持实时的数据变更和处理变得非常重要。所以经过对比,在我们的大数据底座建设过程中,我们选用了 Paimon 作为数据湖存储,使用 Flink 作为流处理的引擎。

二、Flink+Paimon 选型

  • 根据具体的业务场景对大数据架构的存储和计算框架进行选型

三、经典应用场景

四、未来规划

  • 基于 Flink 的 Paimon 批处理查询

  • 提高 Flink 流读 Paimon 的时效性

  • 对 Paimon 持续优化,比如 cache catalog、cache manifest、prefix index 等。

平安证券 Flink+Paimon 的实时架构实践

张 兴|平安证券经纪事业部大数据基础架构负责人

汪超飞|平安证券经纪事业部大数据基础架构工程师

议题介绍:

一、架构介绍

1.1 原有 Flink+HBase 架构介绍

1.2 新的 Flink+Paimon 架构介绍

1.3 新架构带来的变化

二、在开户场景中的实践

2.1 原有任务实现方式介绍

2.2 通过 Flink+Paimon 改造介绍

2.3 架构变化后对业务的提升

快手数据湖在实时场景的建设与实践

钟靓|快手技术专家,Hudi Contributor

议题介绍:

快手数据湖已经在内部开始规模化应用,在时效、资源、效率上均有明显收益。通过数据入湖,在数仓、业务数据范围,打造了新的数据管理架构和生产模式。此次分享内容,主要从典型场景实践出发,讲解技术架构的设计。由三个部分构成:

一、Mysql2Hudi : 实时入湖构建分钟级快照 ods

二、kafka2Hudi : 实时入湖构建动态分区 dwd

三、流批统一:

3.1 样本入湖:搜索、广告、推荐系统训练任务的流批统一

3.2 分层入湖:数仓实时离线任务的流批统一


Flink Forward Asia 2023

▼ 「大会官网」扫码立即参会报名 ▼

图片

点击议题,即可查看议题详情以及讲师介绍

Flink Forward Asia 2023 合作伙伴

图片


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
27天前
|
运维 持续交付 开发工具
深入浅出:GitOps在微服务架构中的应用
【10月更文挑战第26天】本文深入探讨了GitOps在微服务架构中的应用,介绍了其核心理念、自动化部署流程和增强的可观测性。通过实例展示了GitOps如何简化服务部署、配置管理和故障恢复,并推荐了一些实用工具和开发技巧。
|
18天前
|
监控 Go API
Go语言在微服务架构中的应用实践
在微服务架构的浪潮中,Go语言以其简洁、高效和并发处理能力脱颖而出,成为构建微服务的理想选择。本文将探讨Go语言在微服务架构中的应用实践,包括Go语言的特性如何适应微服务架构的需求,以及在实际开发中如何利用Go语言的特性来提高服务的性能和可维护性。我们将通过一个具体的案例分析,展示Go语言在微服务开发中的优势,并讨论在实际应用中可能遇到的挑战和解决方案。
|
18天前
|
网络协议 数据挖掘 5G
适用于金融和交易应用的低延迟网络:技术、架构与应用
适用于金融和交易应用的低延迟网络:技术、架构与应用
44 5
|
19天前
|
Go 数据处理 API
Go语言在微服务架构中的应用与优势
本文摘要采用问答形式,以期提供更直接的信息获取方式。 Q1: 为什么选择Go语言进行微服务开发? A1: Go语言的并发模型、简洁的语法和高效的编译速度使其成为微服务架构的理想选择。 Q2: Go语言在微服务架构中有哪些优势? A2: 主要优势包括高性能、高并发处理能力、简洁的代码和强大的标准库。 Q3: 文章将如何展示Go语言在微服务中的应用? A3: 通过对比其他语言和展示Go语言在实际项目中的应用案例,来说明其在微服务架构中的优势。
|
17天前
|
监控 持续交付 Docker
Docker 容器化部署在微服务架构中的应用有哪些?
Docker 容器化部署在微服务架构中的应用有哪些?
|
17天前
|
监控 持续交付 Docker
Docker容器化部署在微服务架构中的应用
Docker容器化部署在微服务架构中的应用
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
25天前
|
JavaScript 持续交付 Docker
解锁新技能:Docker容器化部署在微服务架构中的应用
【10月更文挑战第29天】在数字化转型中,微服务架构因灵活性和可扩展性成为企业首选。Docker容器化技术为微服务的部署和管理带来革命性变化。本文探讨Docker在微服务架构中的应用,包括隔离性、可移植性、扩展性、版本控制等方面,并提供代码示例。
56 1
|
27天前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
74 1
|
6天前
|
监控 持续交付 API
深入理解微服务架构及其在现代软件开发中的应用
深入理解微服务架构及其在现代软件开发中的应用
13 0