大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢
--只有shufflu时才有效 set spark.sql.adaptive.enabled=true;
set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;
set spark.sql.shuffle.partitions=10;
干货分享,买阿里云产品需要领满减券获得阿里云官网减免,以前经常领取到非官网的券,要么_不能用,要么_过期了,这是很全的阿里云满减券领取和_使用教程: https://bbs.aliyun.com/read/588619.html (复制到浏览器打开) ; 能省就省
insert overwrite一下 就可以合并不少小文件,不能一边新增数据 一边overwrite
你先试一上,5G的数据写入目标表,会占多少空间,假如占4G,一个数据块按照100M左右一个的话,重分区的数量大概就在400左右
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。