备案控制台

开发者社区大数据文章正文

基于 Flink 的实时数仓建设实践

2023-06-06 565

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

实时数仓Hologres，5000CU*H 100GB 3个月

简介： 基于 Flink 的实时数仓建设实践

小米目前的技术架构，在存储侧我们主要应用数据湖 Iceberg 和自研消息队列 Talos，计算层主要应用 Flink 和 Spark，他们统一运行在 Yarn 上，统一通过 Metacat 获取元数据信息，并通过 Ranger 来进行统一的鉴权服务。我们内部使用 Spark 和 Presto 来支撑 OLAP 查询场景，并通过 Kyuubi 来实现路由。

在实时数仓场景中，我们选择 Flink 作为计算底座，Hive、Talos、Iceberg 作为存储底座，其中，消息队列 Talos 作为传统 Lambda 架构的通用选择，在我们内部占比较大且很稳定，Iceberg 作为一款优秀的湖存储，兼具时效性和低成本，其使用占比也在逐步提升，使用到 Iceberg 的 Flink 作业在总占比中已经达到近 50%。
在引入数据湖前，针对日志埋点这样的聚合计算场景，业务会使用离线计算来搭建链路，采集模块会将日志或埋点数据统一收集到消息队列中，Flink 消费消息队列中的数据实时写入 ODS 层 Hive 表，下游的计算则采用 Spark 或者 Hive 按小时或天进行清洗、聚合。显然，这样的链路处理延迟和成本都较高，这些离线作业往往都在凌晨进行调度，给整个集群带来较大压力。

文章标签：

实时数仓 Hologres

实时计算 Flink版

消息中间件

流计算

分布式计算

SQL

OLAP

资源调度

Spark

HIVE

调度

存储

关键词：

实时计算 Flink版实践

云原生数据仓库AnalyticDB MySQL版实践

实时数仓 Hologres实践

flink实时数仓 Hologres

实时计算 Flink版数仓

相关实践学习

基于Hologres轻松玩转一站式实时仓库

本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。

aliyun0470050202-26807

目录

相关文章

灵杰开发者

|

2月前

|

存储数据采集大数据

Flink实时湖仓，为汽车行业数字化加速！

本文由阿里云计算平台产品专家李鲁兵（云觉）分享，聚焦汽车行业大数据应用。内容涵盖市场趋势、典型大数据架构、产品市场地位及能力解读，以及典型客户案例。文章详细介绍了新能源汽车市场的快速增长、大数据架构分析、实时湖仓方案的优势，以及Flink和Paimon在车联网中的应用案例。

灵杰开发者

189 8 8

Flink实时湖仓，为汽车行业数字化加速！

永恒云

|

2月前

|

消息中间件监控数据可视化

实时计算Flink场景实践和核心功能体验

本文详细评测了阿里云实时计算Flink版，从产品引导、文档帮助、功能满足度等方面进行了全面分析。产品界面设计友好，文档丰富实用，数据开发和运维体验优秀，具备出色的实时性和动态扩展性。同时，提出了针对业务场景的改进建议，包括功能定制化增强、高级分析功能拓展及可视化功能提升。文章还探讨了产品与阿里云内部产品及第三方工具的联动潜力，展示了其在多云架构和跨平台应用中的广阔前景。

永恒云

76 9 9

郑小健

|

1月前

|

分布式计算大数据 OLAP

AnalyticDB与大数据生态集成：Spark & Flink

【10月更文挑战第25天】在大数据时代，实时数据处理和分析变得越来越重要。AnalyticDB（ADB）是阿里云推出的一款完全托管的实时数据仓库服务，支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力，将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发，分享如何将AnalyticDB与Spark和Flink集成，构建端到端的大数据处理流水线，实现数据的实时分析和处理。

郑小健

62 1 1

a游苏杭

|

2月前

|

运维数据可视化数据处理

实时计算Flink场景实践和核心功能体验评测

实时计算Flink场景实践和核心功能体验评测

a游苏杭

66 5 5

z13133103790-23484

|

2月前

|

运维监控安全

实时计算Flink场景实践和核心功能体验

实时计算Flink场景实践和核心功能体验

z13133103790-23484

68 3 3

磊桐

|

1月前

|

数据采集运维搜索推荐

实时计算Flink场景实践

在数字化时代，实时数据处理愈发重要。本文分享了作者使用阿里云实时计算Flink版和流式数据湖仓Paimon的体验，展示了其在电商场景中的应用，包括数据抽取、清洗、关联和聚合，突出了系统的高效、稳定和低延迟特点。

磊桐

51 0 0

灵杰开发者

|

3月前

|

存储数据采集 OLAP

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

饿了么的实时数仓经历了多个阶段的演进。初期通过实时ETL、报表应用、联动及监控构建基础架构，随后形成了涵盖数据采集、加工和服务的整体数据架构。1.0版本通过日志和Binlog采集数据，但在研发效率和数据一致性方面存在问题。2.0版本通过Dataphin构建流批一体化系统，提升了数据一致性和研发效率，但仍面临新业务适应性等问题。最终，饿了么选择Paimon和StarRocks作为实时湖仓方案，显著降低了存储成本并提高了系统稳定性。未来，将进一步优化带宽瓶颈、小文件问题及权限控制，实现更多场景的应用。

灵杰开发者

383 7 7

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

郑小健

|

2月前

|

SQL 分布式计算数据挖掘

加速数据分析：阿里云Hologres在实时数仓中的应用实践

【10月更文挑战第9天】随着大数据技术的发展，企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时，如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务，为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用，并通过具体的代码示例来展示其实际应用。

郑小健

217 0 0

武子康

|

2月前

|

SQL 消息中间件分布式计算

大数据-130 - Flink CEP 详解 - CEP开发流程与案例实践：恶意登录检测实现

大数据-130 - Flink CEP 详解 - CEP开发流程与案例实践：恶意登录检测实现

武子康

52 0 0

aliyun5346531989-29970

|

3月前

|

运维数据处理数据安全/隐私保护

阿里云实时计算Flink版测评报告

该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践，展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现，并对比自建Flink集群的优势。最后，报告评估了其成本效益，强调了其灵活扩展性和高投资回报率，适合各类实时数据处理需求。

aliyun5346531989-29970

103 12 12

热门文章

最新文章

基于 Flink 的实时数仓在曹操出行运营中的应用

开放下载《实时数仓Hologres技术实战一本通2.0》

流批一体的近实时数仓的思考与设计

58快狗打车基于Hologres的实时离线统一数据服务

【最佳实践】实时计算 Flink 版在金融行业的实时数仓建设实践

分析型数据库+数据传输，构建企业级实时数仓

滴滴基于 Flink 的实时数仓建设实践

Hologres弹性计算在OLAP分析上的实践和探索

实时数仓入门训练营：实时计算Flink版总体介绍

小米基于 Flink 的实时数仓建设实践

基于OceanBase+Flink CDC，云粒智慧实时数仓演进之路

Hive 数仓及数仓设计方案

DataWorks产品使用合集之在DataWorks中，查看ODPS表的OSS对象如何解决

DataWorks产品使用合集之在DataWorks中，将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决

大数据分析平台之 OLAP 架构的最佳实践

云原生数据仓库产品使用合集之如何使用ADB MySQL湖仓版声纹特征提取服务

云原生数据仓库产品使用合集之可以把ADB MySQL湖仓版数据库做成页面查询的数据库吗

云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么

云原生数据仓库产品使用合集之ADB MySQL湖仓版和 StarRocks 的使用场景区别，或者 ADB 对比 StarRocks 的优劣势

云原生数据仓库产品使用合集之原生数据仓库AnalyticDB PostgreSQL版如果是列存表的话， adb支持通过根据某个字段做upsert吗

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

Apache Flink 入门到实战 - Flink开源社区出品

实时计算 Flink 版产品入门与实操

开源 Flink 极速上手教程

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Flink CDC Meetup PPT - 龚中强

Flink CDC Meetup PPT - 王赫

Flink CDC Meetup PPT - 覃立辉

相关实验场景

更多

基于EMR StarRocks实现游戏玩家画像和行为分析

基于Hologres轻松玩转一站式实时仓库

基于Hologres轻量实时的高性能OLAP分析

基于DTS构建一站式实时数据服务

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

倚天大数据电商数据分析快速实践

下一篇

阿里云无影云电脑免费试用，最长可试用3个月