开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

数据湖是hudi好使呢。还是iceberg好。

数据湖是hudi好使呢。还是iceberg好。

展开
收起
JWRRR 2023-04-03 14:57:33 401 0
4 条回答
写回答
取消 提交回答
  • hudi ,初始化 采用 bulked_insert 方式,后面再接增量。此回答整理自钉群“【③群】Apache Flink China社区”

    2023-04-03 16:53:00
    赞同 展开评论 打赏
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    你好,两个都是数据湖技术,选择哪一种取决于你的具体需求和场景。

    Hudi 的优点是架构相对简单,易于使用和部署,并且支持实时增量数据的写入和查询。同时,Hudi 还提供了一些高级特性,例如支持数据分区和索引、数据更新和删除等。

    Iceberg 的优点在于它支持更多的数据源和查询引擎,并且支持更丰富的查询操作,例如 JOIN、子查询和窗口查询等等。此外,Iceberg 还提供了更加完善的数据管理和版本控制机制。

    简单一句话:快速简单实时增量写入和查询选Hudi,丰富的查询操作和版本管理选Iceberg

    2023-04-03 15:22:38
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    Hudi 和 Iceberg 都是目前比较流行的数据湖解决方案,它们都提供了数据版本控制、数据合并、数据压缩和查询优化等功能。但是它们在实现细节和适用场景上有所不同,因此需要根据具体需求来选择使用哪个框架。

    • Hudi 是由阿里巴巴开源的,它的主要特点是支持大规模的流式和批处理数据操作,同时提供了数据增量更新、删除和插入等功能。Hudi 提供了很好的数据写入性能,并且能够在数据存储和处理上进行很好的平衡,因此适合于大规模的数据湖场景。

    • Iceberg 是由 Netflix 开源的,它的主要特点是提供了类似于关系型数据库的 ACID 语义和快照隔离功能。Iceberg 提供了更好的查询性能和更严格的一致性保证,同时还支持更多的存储后端,如 Hadoop、S3、Azure Blob Storage 等,因此适合于需要更严格一致性保证的数据湖场景。

    综上所述,如果你的数据湖场景中需要支持大规模的流式和批处理数据操作,并且对查询性能要求不是非常严格,那么可以考虑使用 Hudi。如果你的数据湖场景中需要提供类似于关系型数据库的 ACID 语义和快照隔离功能,并且对查询性能要求比较高,那么可以考虑使用 Iceberg。当然,最好根据具体的场景和需求来选择使用哪个框架。

    2023-04-03 15:22:00
    赞同 展开评论 打赏
  • 存在即是合理

    Hudi和Iceberg在一些方面有一些不同的特点:

    1、数据格式支持:Hudi支持Avro、Parquet、ORC等格式的数据,而Iceberg则支持Parquet和ORC格式的数据。Hudi可以将数据以一种增量的方式写入到数据湖中,而Iceberg的设计则更加注重数据的版本控制。

    2、写入性能:Hudi和Iceberg在写入性能上都有不错的表现,但Hudi在一些特定场景下的写入性能可能会更好,例如需要频繁更新小批量数据的情况。

    3、读取性能:Hudi和Iceberg在读取性能方面都表现出色,都提供了各种优化方法来加速读取速度。

    4、开发者生态:Hudi和Iceberg都有比较活跃的社区,提供了丰富的API和工具支持。Hudi的生态系统更加完善,提供了更多的连接器和工具,例如支持Apache Spark、Apache Flink等分布式计算框架的连接器。而Iceberg则更加注重数据版本控制的特性。

    因此,选择Hudi还是Iceberg取决于您的具体业务需求和技术栈。如果需要更多的数据版本控制功能,可以考虑选择Iceberg;如果需要更好的写入性能或更广泛的开发者生态,可以考虑选择Hudi。

    2023-04-03 15:10:09
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

热门讨论

热门文章

相关电子书

更多
DLA 一站式数据湖管理-如何高效构建安全的数据湖? 立即下载
阿里云云原生数据湖体系全解读 立即下载
数据湖存储解决方案蓝皮书 立即下载