开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

谁能指点一下 Flink CDC数据湖与传统数仓的区别与联系呢?

问题1:谁能指点一下 Flink CDC数据湖与传统数仓的区别与联系呢? 问题2:您说的部分功能 指的是存储吗?

展开
收起
真的很搞笑 2023-07-01 19:57:09 85 0
3 条回答
写回答
取消 提交回答
  • Flink CDC 数据湖和传统数仓在设计理念、应用场景和数据存储等方面存在一些区别与联系:

    1. 设计理念:    - 传统数仓:基于 ETL(Extract、Transform、Load)模式,通过批量处理从各种数据源中提取数据,经过转换和清洗后加载到关系型数据库中进行分析。    - Flink CDC 数据湖:基于流式计算模式,实时处理数据流并以流式方式存储在数据湖中,使用 Apache Flink 作为计算引擎。它采用流处理和批处理相结合的方式进行数据处理。

    2. 应用场景:    - 传统数仓:主要用于企业内部的数据分析和决策支持,适用于结构化数据,需要大量的 ETL 处理和数据清洗。    - Flink CDC 数据湖:适用于更广泛的数据处理场景,包括实时数据分析、实时报表、实时监控和实时预测等。可以处理多种类型的数据,包括结构化、半结构化和非结构化数据。

    3. 数据存储:    - 传统数仓:通常使用关系型数据库作为存储引擎,如 Oracle、MySQL、SQL Server 等,数据以事实表和维度表的形式组织和存储。    - Flink CDC 数据湖:可以使用多种存储引擎,如 HDFS、S3、Azure Blob Storage 等。数据以对象存储的方式组织和存储,具有更好的扩展性和容错性。

    联系: Flink CDC 数据湖可以看作是传统数仓的一种升级版,它在离线数仓的部分功能进行了改进和升级。例如,Flink CDC 数据湖中的某些功能类似于 Hive,但可能更加灵活和易用。同时,Flink CDC 数据湖不仅仅涉及数据存储方面的改进,还包括其他方面的功能提升。

    2023-07-30 13:25:59
    赞同 展开评论 打赏
  • 北京阿里云ACE会长

    Flink CDC 数据湖和传统数仓都是用于存储和处理数据的解决方案,但它们有着不同的设计理念和应用场景。
    设计理念
    传统数仓的设计理念是基于 ETL(Extract、Transform、Load)模式,即从各种数据源(如数据库、文件、API 等)中提取数据,经过一系列的转换和清洗操作,最终加载到数仓中进行分析和应用。传统数仓通常使用关系型数据库作为存储引擎,采用批量处理的方式进行数据处理。
    Flink CDC 数据湖的设计理念则是基于流式计算模式,即实时处理数据流,将数据以流式的方式存储在数据湖中,并提供实时查询和分析服务。Flink CDC 数据湖通常使用 Apache Flink 作为计算引擎,采用流处理和批处理相结合的方式进行数据处理。
    应用场景
    传统数仓通常用于企业内部的数据分析和决策支持,例如金融、零售和制造业等领域。传统数仓的数据通常是结构化数据,需要进行大量的 ETL 处理和数据清洗,才能被用于分析和应用。
    Flink CDC 数据湖则适用于更广泛的数据处理场景,包括实时数据分析、实时报表、实时监控和实时预测等。Flink CDC 数据湖可以处理各种类型的数据,包括结构化数据、半结构化数据和非结构化数据,具有更加灵活的数据处理能力。
    数据存储
    传统数仓通常使用关系型数据库作为存储引擎,例如 Oracle、MySQL、SQL Server 等。传统数仓的数据通常是按照事实表和维度表的方式进行组织和存储。
    Flink CDC 数据湖则可以使用各种类型的存储引擎,包括 HDFS、S3、Azure Blob Storage 等。Flink CDC 数据湖的数据存储通常是以对象存储的方式进行组织和存储,具有更好的扩展性和容错性。

    2023-07-30 11:13:12
    赞同 展开评论 打赏
  • 回答1:就是离线数仓的部分功能升级版 回答2:就是hive.的某些功能不太好用了,然后把这些功能升级了,不止存储,还有一些别的方面。你去百度一下hudi和hive的差别,就差不多了,此回答整理自钉群“Flink CDC 社区”

    2023-07-01 20:25:07
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    基于云原生数据仓库AnalyticDB PG的最佳实践 立即下载
    新氧云原生全栈数仓最佳实践 立即下载
    离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进 立即下载