数据湖是hudi好使呢。还是iceberg好。

展开

收起

JWRRR 2023-04-03 14:57:33 720 版权

4 条回答

写回答

取消提交回答

DYMMM

hudi ,初始化采用 bulked_insert 方式，后面再接增量。此回答整理自钉群“【③群】Apache Flink China社区”

2023-04-03 16:53:00

赞同展开评论
凌云Cloud

发表文章、提出问题、分享经验、结交志同道合的朋友

你好，两个都是数据湖技术，选择哪一种取决于你的具体需求和场景。

Hudi 的优点是架构相对简单，易于使用和部署，并且支持实时增量数据的写入和查询。同时，Hudi 还提供了一些高级特性，例如支持数据分区和索引、数据更新和删除等。

Iceberg 的优点在于它支持更多的数据源和查询引擎，并且支持更丰富的查询操作，例如 JOIN、子查询和窗口查询等等。此外，Iceberg 还提供了更加完善的数据管理和版本控制机制。

简单一句话：快速简单实时增量写入和查询选Hudi，丰富的查询操作和版本管理选Iceberg

2023-04-03 15:22:38

赞同展开评论
wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com
Hudi 和 Iceberg 都是目前比较流行的数据湖解决方案，它们都提供了数据版本控制、数据合并、数据压缩和查询优化等功能。但是它们在实现细节和适用场景上有所不同，因此需要根据具体需求来选择使用哪个框架。
- Hudi 是由阿里巴巴开源的，它的主要特点是支持大规模的流式和批处理数据操作，同时提供了数据增量更新、删除和插入等功能。Hudi 提供了很好的数据写入性能，并且能够在数据存储和处理上进行很好的平衡，因此适合于大规模的数据湖场景。
- Iceberg 是由 Netflix 开源的，它的主要特点是提供了类似于关系型数据库的 ACID 语义和快照隔离功能。Iceberg 提供了更好的查询性能和更严格的一致性保证，同时还支持更多的存储后端，如 Hadoop、S3、Azure Blob Storage 等，因此适合于需要更严格一致性保证的数据湖场景。
综上所述，如果你的数据湖场景中需要支持大规模的流式和批处理数据操作，并且对查询性能要求不是非常严格，那么可以考虑使用 Hudi。如果你的数据湖场景中需要提供类似于关系型数据库的 ACID 语义和快照隔离功能，并且对查询性能要求比较高，那么可以考虑使用 Iceberg。当然，最好根据具体的场景和需求来选择使用哪个框架。
2023-04-03 15:22:00

赞同展开评论
武当张三丰丶

存在即是合理

Hudi和Iceberg在一些方面有一些不同的特点：

1、数据格式支持：Hudi支持Avro、Parquet、ORC等格式的数据，而Iceberg则支持Parquet和ORC格式的数据。Hudi可以将数据以一种增量的方式写入到数据湖中，而Iceberg的设计则更加注重数据的版本控制。

2、写入性能：Hudi和Iceberg在写入性能上都有不错的表现，但Hudi在一些特定场景下的写入性能可能会更好，例如需要频繁更新小批量数据的情况。

3、读取性能：Hudi和Iceberg在读取性能方面都表现出色，都提供了各种优化方法来加速读取速度。

4、开发者生态：Hudi和Iceberg都有比较活跃的社区，提供了丰富的API和工具支持。Hudi的生态系统更加完善，提供了更多的连接器和工具，例如支持Apache Spark、Apache Flink等分布式计算框架的连接器。而Iceberg则更加注重数据版本控制的特性。

因此，选择Hudi还是Iceberg取决于您的具体业务需求和技术栈。如果需要更多的数据版本控制功能，可以考虑选择Iceberg；如果需要更好的写入性能或更广泛的开发者生态，可以考虑选择Hudi。

2023-04-03 15:10:09

赞同展开评论

数据湖是hudi好使呢。还是iceberg好。

实时计算 Flink

相关文章

热门讨论

热门文章