活动预约|9.3 Lakehouse Meetup

简介: 9月3日下午 13:30 开始,一起探讨数据湖仓解决方案。

image.png


直播地址:https://developer.aliyun.com/live/250011


9月3日下午13:30,飞天club 与 StreamNative 联合举办 Lakehouse Meetup,邀请阿里巴巴、StreamNative 的 4 位技术专家一起探讨数据湖仓解决方案。具体议程如下:


01

毕岩(寻径)| 阿里巴巴技术专家


《基于数据湖格式构建数据湖仓架构》


  • 解析数据湖仓架构关键特性,并简述三个数据湖格式。
  • 结合 Delta Lake 和 Hudi,分享阿里云 EMR 在经典数仓场景的使用案例。
  • 最后介绍阿里云 EMR+DLF 提供的整体数据湖仓解决方案。



02

陈航 | StreamNative 高级工程师


《APACHE PULSAR 的湖仓一体方案:PULSAR 的 LAKEHOUSE 分层存储集成详解》


Apache Pulsar 是一种用于缓存数据并在不同系统之间解耦的消息总线。为了支持长期的主题数据存储,我们引入了分层存储,将冷数据卸载到分层存储中,例如 GCS、S3、HDFS 等。但是,当前卸载的数据是由 Pulsar 管理的非开放格式数据,是原始的数据格式,且只有 Pulsar 可以访问数据。因此很难将其与其他大数据组件集成,例如 Presto、Flink SQL 和 Spark SQL。为了解决这个问题,我们引入了 Lakehouse 来管理卸载数据,并与当前的主题冷数据卸载机制集成。我们可以使用 Lakehouse 提供的所有功能,例如事务支持、Schema 强制和 BI 支持等。我们会根据数据位置从 BookKeeper 或分层存储中读取数据,进行流数据读取。由于 Lakehouse 的开放存储格式,我们可以支持 Lakehouse 所维持的各种生态系统读取数据。为了支持流卸载并使卸载机制更具可扩展性,我们引入了按 reader 卸载机制来从主题中读取数据并写入分层存储。此外,我们还可以通过 offloader 提供压缩服务后端,并将主题作为表。键的每个更新操作都被转换为表的 upsert 操作。



03

陈玉兆(玉兆)| 阿里巴巴技术专家


《Apache Hudi 实时湖仓解决方案》


  • 基于 Hudi 的数仓解决方案
  • Hudi 的核心场景
  • 使用 Hudi 构建 Pulsar 分级存储
  • 近期 Roadmap



04

张勇 | StreamNative 软件工程师


《整合 PULSAR 和 LAKEHOUSE 数据:使用 CONNECTOR 将 PULSAR TOPIC 中的数据 SINK 到 LAKEHOUSE STORAGE》


我们可能会使用不同的系统来处理不同应用场景中的流数据,在这些系统间整合数据可能会存在问题。本演讲将聚焦于 Lakehouse Connector,讨论如何使用此工具将 Pulsar Topic 中的数据 Sink 至 Lakehouse。


议程.png


直播地址:https://developer.aliyun.com/live/250011

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
人工智能 城市大脑 自然语言处理
混合云,第一!
IDC发布首个《中国混合云市场份额,2023:持续在政企行业增长》报告,阿里云获中国混合云PaaS及服务市场份额第一。
285 1
|
消息中间件 缓存 Cloud Native
大促场景系统稳定性保障实践经验总结
11月11日0点刚过26秒,天猫双11的订单创建峰值就达到58.3万笔/秒,阿里云又一次扛住全球最大规模流量洪峰!58.3万笔/秒,这一数字是2009年第一次天猫双11的1457倍。
13881 105
大促场景系统稳定性保障实践经验总结
|
JavaScript Java 测试技术
基于微信小程序的汽车销售系统+springboot+vue.js附带文章和源代码设计说明文档ppt
基于微信小程序的汽车销售系统+springboot+vue.js附带文章和源代码设计说明文档ppt
217 0
|
SQL Java 数据库连接
ORM框架的发展历史
最初的时候是直接通过jdbc来直接操作数据库的,如果本地数据库有一张t_user表,那么操作流程是
409 0
|
监控 数据可视化 数据挖掘
数据可视化第二版-拓展-和鲸网约车分析一等奖作品
数据可视化第二版-拓展-和鲸网约车分析一等奖作品
|
机器学习/深度学习 算法 决策智能
遗传算法(GA)优化后RBF神经网络优化分析(Matlab代码实现)
遗传算法(GA)优化后RBF神经网络优化分析(Matlab代码实现)
704 0
AcWing——方格迷宫(有点不一样的迷宫问题)
AcWing——方格迷宫(有点不一样的迷宫问题)
239 0
在桌面用Typora新建markdown类型文件
在桌面用Typora新建markdown类型文件
677 0
在桌面用Typora新建markdown类型文件