开发者社区> 问答> 正文

filesystem connector不支持跨subtask合并小文件?

你好,

在使用filesystem connector过程中,开启了compaction,使用parquet列式文件,指定3个并行度,但发现无论如何也触发不了合并,因为列式文件是checkpoint触发时才会滚动,这样同一checkpoint内会产生与并行度相同的文件,按说此时文件数已经大于1了,为什么不合并呢?

create table fs_parquet_compact

(userid bigint, name string, part string)

PARTITIONED BY (part)

with(

'connector' = 'filesystem',

'path' = 'hdfs:///data/fs_parquet_compact',

'format' = 'parquet',

'auto-compaction' = 'true',

'compaction.file-size' = '2kb',

'sink.rolling-policy.file-size' = '500b',

'sink.rolling-policy.rollover-interval' = '800s',

'sink.rolling-policy.check-interval' = '60s'

);*来自志愿者整理的flink邮件归档

展开
收起
EXCEED 2021-12-02 16:03:28 571 0
1 条回答
写回答
取消 提交回答
  • 看到你的compaction.file-size配置成了2kb,这个是希望合并以后的文件的target size只有2kb么*来自志愿者整理的FLINK邮件归档

    2021-12-02 16:16:15
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Apache Flink 流式应用中状态的数据结构定义升级 立即下载
《Apache Flink-重新定义计算》PDF下载 立即下载
原生SQLonHadoop引擎-Apache HAWQ2.X 立即下载