谁能指点一下 Flink CDC数据湖与传统数仓的区别与联系呢？

问题1:谁能指点一下 Flink CDC数据湖与传统数仓的区别与联系呢？问题2:您说的部分功能指的是存储吗？

展开

收起

真的很搞笑 2023-07-01 19:57:09 350 版权

3 条回答

写回答

取消提交回答

Star时光

Flink CDC 数据湖和传统数仓在设计理念、应用场景和数据存储等方面存在一些区别与联系：

1. 设计理念：    - 传统数仓：基于 ETL（Extract、Transform、Load）模式，通过批量处理从各种数据源中提取数据，经过转换和清洗后加载到关系型数据库中进行分析。    - Flink CDC 数据湖：基于流式计算模式，实时处理数据流并以流式方式存储在数据湖中，使用 Apache Flink 作为计算引擎。它采用流处理和批处理相结合的方式进行数据处理。

2. 应用场景：    - 传统数仓：主要用于企业内部的数据分析和决策支持，适用于结构化数据，需要大量的 ETL 处理和数据清洗。    - Flink CDC 数据湖：适用于更广泛的数据处理场景，包括实时数据分析、实时报表、实时监控和实时预测等。可以处理多种类型的数据，包括结构化、半结构化和非结构化数据。

3. 数据存储：    - 传统数仓：通常使用关系型数据库作为存储引擎，如 Oracle、MySQL、SQL Server 等，数据以事实表和维度表的形式组织和存储。    - Flink CDC 数据湖：可以使用多种存储引擎，如 HDFS、S3、Azure Blob Storage 等。数据以对象存储的方式组织和存储，具有更好的扩展性和容错性。

联系： Flink CDC 数据湖可以看作是传统数仓的一种升级版，它在离线数仓的部分功能进行了改进和升级。例如，Flink CDC 数据湖中的某些功能类似于 Hive，但可能更加灵活和易用。同时，Flink CDC 数据湖不仅仅涉及数据存储方面的改进，还包括其他方面的功能提升。

2023-07-30 13:25:59

赞同展开评论
算精通

北京阿里云ACE会长

Flink CDC 数据湖和传统数仓都是用于存储和处理数据的解决方案，但它们有着不同的设计理念和应用场景。
设计理念
传统数仓的设计理念是基于 ETL（Extract、Transform、Load）模式，即从各种数据源（如数据库、文件、API 等）中提取数据，经过一系列的转换和清洗操作，最终加载到数仓中进行分析和应用。传统数仓通常使用关系型数据库作为存储引擎，采用批量处理的方式进行数据处理。
Flink CDC 数据湖的设计理念则是基于流式计算模式，即实时处理数据流，将数据以流式的方式存储在数据湖中，并提供实时查询和分析服务。Flink CDC 数据湖通常使用 Apache Flink 作为计算引擎，采用流处理和批处理相结合的方式进行数据处理。
应用场景
传统数仓通常用于企业内部的数据分析和决策支持，例如金融、零售和制造业等领域。传统数仓的数据通常是结构化数据，需要进行大量的 ETL 处理和数据清洗，才能被用于分析和应用。
Flink CDC 数据湖则适用于更广泛的数据处理场景，包括实时数据分析、实时报表、实时监控和实时预测等。Flink CDC 数据湖可以处理各种类型的数据，包括结构化数据、半结构化数据和非结构化数据，具有更加灵活的数据处理能力。
数据存储
传统数仓通常使用关系型数据库作为存储引擎，例如 Oracle、MySQL、SQL Server 等。传统数仓的数据通常是按照事实表和维度表的方式进行组织和存储。
Flink CDC 数据湖则可以使用各种类型的存储引擎，包括 HDFS、S3、Azure Blob Storage 等。Flink CDC 数据湖的数据存储通常是以对象存储的方式进行组织和存储，具有更好的扩展性和容错性。

2023-07-30 11:13:12

赞同展开评论
芯在这

回答1:就是离线数仓的部分功能升级版回答2:就是hive.的某些功能不太好用了，然后把这些功能升级了，不止存储，还有一些别的方面。你去百度一下hudi和hive的差别，就差不多了，此回答整理自钉群“Flink CDC 社区”

2023-07-01 20:25:07

赞同展开评论

谁能指点一下 Flink CDC数据湖与传统数仓的区别与联系呢？

实时计算 Flink

相关文章

热门讨论

热门文章