流写入hive,其实是属于数据湖的概念范畴。 因为流往hive里面写,会造成很多的碎片文件,对hdfs造成性能影响,因此一般不会在流场景下直接写入hive。 详细的可以了解 Delta lake 或 hudi。
在2020年04月1日 15:05,sunfulinsu...@163.com 写道: Hi, 场景其实很简单,就是通过Flink实时将kafka数据做个同步到hive。hive里创建了分区表。 我感觉这个场景很常见吧。之前以为是支持的,毕竟可以在通过hivecatalog创建kafka table。但是创建了不能写,有点不合理。 OK吧。想问下FLIP-115计划是在哪个release版本支持哈?1.11么?*来自志愿者整理的FLINK邮件归档
虽然数据湖可以扩展一些事情,但是流写Hive也是Hive数仓重要的一环。
文件数的问题: - 取决于checkpoint间隔,如果checkpoint间隔内,能写到128MB的文件,对HDFS来说就是很合适的文件大小了。 - 流写,也可以引入files compact等功能,FLIP-115里面也有讨论。*来自志愿者整理的FLINK邮件归档
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。