开发者社区> 问答> 正文

flink将kafka中的数据落地到hdfs,在小文件和落地效率方面有什么好的建议?

背景: 现在使用的是spark streaming消费kafka的数据,然后落地到hdfs目录,产生了2个问题:

1、对于数据量较大的topic,且使用压缩存储之后,spark streaming程序会出现延迟。

2、落地的数据文件里有大量的小文件产生,namenode的压力增大

对于问题1,暂时分析是每小时将落地的临时目录的文件移到正式目录引起的,暂时没有找到解决办法

对于问题2,有思路,但是会导致问题1更严重,增加延迟现象

想问问flink在将数据写入hdfs的时候在效率和小文件方面有什么好的建议

展开
收起
游客tx7oqcjd766b6 2020-03-13 19:07:27 1829 0
1 条回答
写回答
取消 提交回答
  • 技术架构师 阿里云开发者社区技术专家博主 CSDN签约专栏技术博主 掘金签约技术博主 云安全联盟专家 众多开源代码库Commiter

    可以异步,kafka完整的进行数据同步,而真正的消费来源于另外的时候

    2020-03-13 21:58:15
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
海量数据分布式存储——Apache HDFS之最新进展 立即下载