背景: 现在使用的是spark streaming消费kafka的数据,然后落地到hdfs目录,产生了2个问题:
1、对于数据量较大的topic,且使用压缩存储之后,spark streaming程序会出现延迟。
2、落地的数据文件里有大量的小文件产生,namenode的压力增大
对于问题1,暂时分析是每小时将落地的临时目录的文件移到正式目录引起的,暂时没有找到解决办法
对于问题2,有思路,但是会导致问题1更严重,增加延迟现象
想问问flink在将数据写入hdfs的时候在效率和小文件方面有什么好的建议
可以异步,kafka完整的进行数据同步,而真正的消费来源于另外的时候
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。