大家好, 检查点配的是120s,滚动时长800s,滚动大小1kb,并行度配的2 不过在跑的过程中发现不管写入的多快,同时只存在一个in-progress文件,且最终生成的文件是严格按照120s生成的,这个很奇怪,似乎只有按检查点滚动生效了,与json格式的不一样。真的是这样吗?不过看官方文档没有这样说 求大佬们解惑!
create table fs_parquet (userid bigint, name string, part string) PARTITIONED BY (part) with( 'connector' = 'filesystem', 'path' = 'hdfs:///data/fs_parquet', 'format' = 'parquet', 'sink.rolling-policy.file-size' = '1kb', 'sink.rolling-policy.rollover-interval' = '800s', 'sink.rolling-policy.check-interval' = '60s' );*来自志愿者整理的flink邮件归档
parquet因为它会在内存中攒buffer,所以文件的file-size并不能很精确。。只能等它flush了才会生效。*来自志愿者整理的FLINK邮件归档
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。