为啥flink离线压缩hudi表每次只压缩一个commit呀

展开

收起

游客6vdkhpqtie2h2 2022-09-17 10:51:20 1036 版权

13 条回答

写回答

取消提交回答

wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com

在Hudi表上进行压缩操作，不同于传统数据库表的压缩操作，Hudi表的压缩操作主要是用于删除或归档已经过期的数据记录，从而减少表的大小和提高查询性能。Hudi的离线压缩是通过将对同一数据集进行的小型文件的集合进行组合来实现的。

在Flink中，进行Hudi表的离线压缩时，同一时间只能压缩一个commit。这是因为在Hudi表上执行离线压缩时，需要将表中的所有数据记录读取到内存中，进行压缩操作后再重新写入表中。由于Hudi表比较大，如果同时对多个commit进行压缩操作，可能会导致系统内存不足以容纳所有数据，从而导致OOM（Out of Memory）错误。

因此，为了避免OOM错误和提高离线压缩效率，Flink在进行Hudi表离线压缩时，只能压缩一个commit。可以在离线压缩完成后，再压缩下一个commit。而且通常Hudi表中每个commit保存的数据量不会太大，因此连续对多个commit进行压缩操作，也会导致压缩效率变得很低。因此，针对比较大的Hudi表，建议在离线压缩操作期间，对多个commit进行分批处理，以提高离线压缩速度和避免系统OOM错误的发生。

2023-05-05 21:00:54

赞同展开评论
冲冲冲冲

Flink离线压缩Hudi表每次只压缩一个commit的原因可能是为了避免数据丢失和保证数据一致性。Hudi表是基于时间轴的数据存储结构，每个commit包含了一段时间内的数据变化。如果一次性压缩多个commit，可能会导致数据丢失或不一致，因为压缩过程中可能会涉及到多个commit之间的数据变化。因此，为了保证数据的完整性和一致性，Flink离线压缩Hudi表每次只压缩一个commit，以保证数据的正确性。

2023-05-05 18:09:05

赞同展开评论
穿过生命散发芬芳

在Apache Hudi中，每次对表进行修改都会生成一个Hudi数据集的commit。一个commit是一个Hudi的数据版本，它可以看作是一个标记点，记录了数据在某一时间点的状态。当我们使用Flink进行离线压缩时，就是把这些commit中的数据整理为一个更加紧凑的数据集。

默认情况下，Hudi的compaction操作并不会一次性压缩所有commit，而是在后台周期性地运行compaction任务，每一次任务会选择合适的commit进行压缩。这样做的好处是保证了压缩操作对系统性能的影响最小，同时也可以把压缩操作分散到多次运行中，避免因为数据太大而导致压缩过程过于耗时。

如果您想一次性对多个commit进行压缩，可以手动触发Hudi的compaction任务。在Flink中，可以通过HudiCompactionConfig来配置触发compaction任务的参数，例如：配置需要压缩的commit时间段、要执行compaction的表名等，然后在Flink的作业中调用HoodieFlinkWriteHelper.runCompaction()方法即可。

需要注意的是，一次性压缩多个commit可能会占用大量的磁盘空间和系统资源，因此在进行这样的操作之前，请先评估您的系统资源和性能瓶颈，以确保操作的顺利进行。

2023-05-03 07:50:19

赞同展开评论
Kinging

压缩一个commit是为了避免在压缩过程中丢失提交的数据。当我们压缩多个commit时，会先将这些commit的数据合并到一个新的commit里面，然后再进行压缩，但是如果在合并的过程中发生了故障，就有可能导致合并后的数据丢失，这样就会导致数据不完整或者出现错误。

为了避免这种情况的发生，flink离线压缩hudi表每次只压缩一个commit，这样可以保证每个commit的数据都被完整地压缩，同时也减小了故障发生的概率，提高了数据的可靠性。此外，这种方式还可以实现增量压缩，只压缩新增或者修改的数据，而不需要重新压缩整个数据集，可以提高压缩效率。

2023-04-28 20:19:04

赞同展开评论
行十三

云端行者觅知音，技术前沿我独行。前言探索无边界，阿里风光引我情。

在Flink中使用Hudi进行离线压缩时，通常会按照commit进行压缩。每个commit对应着一批数据的写入操作，可以将这些写入操作的数据进行合并和压缩，以减少存储空间和提高查询性能。

你可以使用Hudi的CompactionAPI来进行离线压缩。CompactionAPI会按照commit时间顺序依次对Hudi表中的数据进行压缩，每次只压缩一个commit对应的数据。在压缩过程中，CompactionAPI会将多个commit对应的数据进行合并和压缩，以减少存储空间和提高查询性能。

每次压缩一个commit对应的数据，可以保证压缩过程的可控性和稳定性。同时，可以根据实际情况设置CompactionAPI的参数，如压缩策略、压缩比例、并发度等，以提高压缩效率和性能。希望对你有帮助。

2023-04-28 10:23:20

赞同展开评论
魏红斌

天下风云出我辈，一入江湖岁月催，皇图霸业谈笑中，不胜人生一场醉。

据我的了解，Flink 离线压缩 Hudi 表每次只压缩一个 commit 的原因是为了保证压缩的准确性和可靠性。

首先，Hudi 表是通过多个 commit 构成的，每个 commit 都包含着一定时间范围内的数据变更信息。在进行离线压缩时，需要对这些 commit 分别进行处理，以确保数据的完整性和正确性。

其次，如果一次性对多个 commit 进行压缩，可能会导致数据不一致或丢失的情况发生。例如，如果在对多个 commit 进行压缩过程中，其中一个 commit 的数据发生了变化，那么可能会影响其他 commit 的数据，进而影响整个数据集的完整性和正确性。

因此，为了确保数据的准确性和可靠性，Flink 离线压缩 Hudi 表每次只压缩一个 commit，以保证数据的完整性和正确性。

2023-04-27 09:07:22

赞同展开评论
ReaganYoung

值得去的地方都没有捷径

Flink 离线压缩 Hudi 表时每次只压缩一个 commit 的原因是为了确保数据的一致性和完整性。在 Hudi 中，每个 commit 对应着一批数据的写入操作，这些写入操作可能是由不同的任务或线程同时执行的，因此如果一次性压缩多个 commit，可能会导致数据的不一致性和错误。

另外，每个 commit 的数据量可能会比较大，一次性压缩多个 commit 也可能会导致压缩任务的负载过重，影响整个系统的性能。因此，分批压缩每个 commit 可以更好地平衡系统负载，提高系统的稳定性和可靠性。

如果您希望一次性压缩多个 commit，可以通过编写自定义的压缩函数来实现。但需要注意的是，自定义的压缩函数需要考虑数据的一致性和完整性，以及系统的性能和稳定性。

2023-04-26 15:52:48

赞同展开评论
爱吃白菜的GGB

Hudi是一种用于增量数据处理和数据湖管理的开源框架，它提供了一些高级特性，如数据版本控制、数据合并、数据索引等功能，使得处理数据湖变得更加方便和高效。Flink可以与Hudi进行深度集成，实现对Hudi表的实时和离线处理。

对于离线压缩Hudi表的操作，每次只压缩一个commit的主要原因是为了避免影响Hudi表的查询和更新性能。Hudi表中的数据版本是通过commit来管理的，每个commit代表了一次数据的变更和更新。当一个commit被压缩时，会将该commit中的所有数据版本进行合并，生成一个新的数据文件。如果同时压缩多个commit，会导致数据合并的复杂度增加，从而影响查询和更新性能。

因此，为了避免影响Hudi表的查询和更新性能，离线压缩Hudi表时通常只压缩一个commit。如果需要对多个commit进行压缩，可以通过调度多个离线任务来实现。同时，也可以通过设置合适的压缩频率和压缩策略，使得Hudi表的查询和更新性能得到更好的平衡。

2023-04-24 23:37:31

赞同展开评论
叶秋学长

全栈JAVA领域创作者

Hudi表是基于时间的分区表，每个分区对应一个commit，因此每次压缩只能针对一个commit。在压缩过程中，需要先将一个commit的数据读入内存，进行压缩操作，再写入新的commit中。由于内存资源有限，同时处理多个commit会导致OOM等问题。因此，Hudi表离线压缩的设计是每次针对一个commit进行处理，确保操作的可靠性和内存使用的可控性。如果需要压缩多个commit，可以通过多次提交作业的方式实现。

2023-04-24 08:02:20

赞同展开评论
祁符建

热爱开发

可能是因为 Flink 离线压缩 Hudi 表时，会依据 Hudi 的 metadata 信息，将一个 commit 中的数据进行压缩，而每个 commit 存储的是一组不同的变更操作，如果有多个 commit 需要进行压缩，就需要按照 commit 的顺序依次进行压缩。同时，每个 commit 中的数据可能存在不同的 schema，这也可能是为什么每次只能压缩一个 commit 的原因之一。

2023-04-23 17:52:45

赞同展开评论
vohelon

在Hudi表中，每次提交数据后都会生成一个 commit，一个 commit 对应一份数据，这就意味着每个 commit 都是独立的数据集，互相之间没有关联关系。因此，在 FlInk 上进行离线压缩 Hudi 表的时候，通常也是逐个 commit 进行压缩，这样可以保证每个 commit 的数据都能够压缩成功，而不会出现某些数据因压缩失败而丢失的情况。

2023-04-23 17:16:55

赞同展开评论
三掌柜666

十分耕耘，一定会有一分收获！

楼主你好，在默认情况下，MERGE_ON_READ表的压缩是启用的。触发器策略是在完成五次提交后执行压缩。因为压缩会消耗大量内存，并且与写操作处于相同的管道中，所以当数据量很大(> 100000 /秒)时，很容易干扰写操作。离线压缩需要在命令行上提交Flink任务，你试试这个命令行：

./bin/flink run -c org.apache.hudi.sink.compact.HoodieFlinkCompactor lib/hudi-flink-bundle_2.11-0.9.0.jar --path hdfs://xxx:9000/table

2023-04-23 17:05:05

赞同 1 展开评论
武当张三丰丶

存在即是合理

在使用 Flink 离线压缩 Hudi 表时，每次只压缩一个 commit 的原因是 Hudi 本身的设计。

Hudi 将数据分为不同的分区，每个分区都包含多个文件，每个文件都包含多个数据块（Data Block）。在一个 commit 中，可以包含多个分区，但是每个分区都只会被包含在一个 commit 中，每个 commit 中的分区必须互不相交。

当使用 Flink 进行离线压缩时，Flink 需要对每个 commit 进行压缩，但是不能同时对多个 commit 进行压缩，因为这样会导致多个 commit 中的分区相交，不符合 Hudi 的设计要求。

因此，每次只能压缩一个 commit，等待这个 commit 的压缩完成后，再开始下一个 commit 的压缩。这样虽然会导致压缩过程比较慢，但是可以保证数据的正确性，不会出现多个 commit 中的分区相交的问题。

2023-04-23 17:02:18

赞同展开评论

滑动查看更多

为啥flink离线压缩hudi表每次只压缩一个commit呀

实时计算 Flink

相关文章

热门讨论

热门文章

为啥flink离线压缩hudi表 每次只压缩一个commit呀

实时计算 Flink

相关文章

热门讨论

热门文章

为啥flink离线压缩hudi表每次只压缩一个commit呀