备案控制台

开发者社区大数据文章正文

Spark SQL repartition 为啥生成的文件变大了？

2020-05-29 2072

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

记录一个客户问题

客户用Spark SQL的repartition接口来解决Hive ORC表小文件的问题，发现文件膨胀的很厉害

比如原来有1000个小文件，总大小是500MB
repartition(10) 再 insert overwrite之后

10个文件总大小是2～3GB

但是检查了一下最终的两个分区的 row count是一致的

调查结论

先说一下这两接口不同

repartition 把record完全打乱最终随机插入到10个文件有Shuffle
coalesce 把相邻的分区的数据捏在一起，没有Shuffle

为啥shuffle打乱数据会让最终的表输出文件变大

其实就是 ORC 数据编码问题
原来的源分区其实是通过HashPartition的方式分布的，这样的数据分布可以让ORC的编码压缩得更加极致，而repartition完全打乱后导致本来在一个文件的相同记录分布到10个文件，那就是每个文件都有该记录的编码索引，那么最终文件就变大了

所以推荐使用 coalesce 接口来做类似的事情

文章标签：

分布式计算

SQL

索引

Spark

HIVE

关键词：

apache spark SQL

SQL文件

apache spark文件

SQL spark

apache spark sql文件

峰七（林学维）

目录

相关文章

技术小达人

|

22天前

|

SQL 分布式计算 Java

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

技术小达人

48 0 0

Apache_Tomcat_Nignx

|

2月前

|

SQL 关系型数据库 MySQL

MySQL导入.sql文件后数据库乱码问题

本文分析了导入.sql文件后数据库备注出现乱码的原因，包括字符集不匹配、备注内容编码问题及MySQL版本或配置问题，并提供了详细的解决步骤，如检查和统一字符集设置、修改客户端连接方式、检查MySQL配置等，确保导入过程顺利。

Apache_Tomcat_Nignx

193 3 3

lsug6eziqmdfk1111

|

4月前

|

SQL 数据库

为什么 SQL 日志文件很大，我应该如何处理？

为什么 SQL 日志文件很大，我应该如何处理？

lsug6eziqmdfk1111

322 6 6

赵渝强老师

|

3月前

|

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

72 0 0

lsug6eziqmdfk1111

|

4月前

|

SQL 数据库

为什么SQL日志文件很大，该如何处理？

为什么SQL日志文件很大，该如何处理？

lsug6eziqmdfk1111

263 0 0

武子康

|

4月前

|

消息中间件分布式计算 Kafka

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

武子康

50 0 0

武子康

|

4月前

|

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

123 0 0

武子康

|

4月前

|

SQL 分布式计算算法

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

武子康

124 0 0

武子康

|

4月前

|

SQL 分布式计算 Java

大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源：JSON、CSV、JDBC、Hive

大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源：JSON、CSV、JDBC、Hive

武子康

100 0 0

热烈的马

|

9月前

|

SQL 分布式计算数据库

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

热烈的马

354 0 0

热门文章

最新文章

Spark Master HA 主从切换过程不会影响到集群已有作业的运行，为什么？

Spark 与 MapReduce 的 Shuffle 的区别？

如何在 Java 代码中使用 JSqlParser 解析复杂的 SQL 语句？

如何在Django中正确使用参数化查询或ORM来避免SQL注入漏洞？

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Flink SQL 详解：流批一体处理的强大工具

SQL优化有绝招，使用DAS提升工作效率！完成任务可领取保暖手套！

【潜意识Java】MyBatis中的动态SQL灵活、高效的数据库查询以及深度总结

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

如何用 Java 校验 SQL 语句的合法性？

SQL脚本相除

0基础学习SQL注入之万能账号密码（BUUctf例题-[极客大挑战 2019]EasySQL1）

SQL脚本利用带关联子查询Update语句更新数据

10分钟了解Flink SQL使用

SQL脚本把多行SQL数据变成一条多列数据

mybatis动态sql

基于若依的ruoyi-nbcio流程管理系统修改代码生成的sql菜单id修改成递增id（谨慎修改，大并发分布式有弊端）

SQL脚本字符串替换

你写的每条SQL都是全表扫描吗

数据库SQL语言实战（六）

相关课程

更多

如何在 PolarDB-X 中优化慢 SQL

SQL完全自学手册

SQL Server on Linux入门教程

SQL入门与实践

数据库及SQL/MySQL基础

SQL进阶及查询

相关电子书

更多

SQL Server 2017

GeoMesa on Spark SQL

原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili

相关实验场景

更多

PolarDB for AI：在数据库中通过SQL实现AI能力

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

使用SQL语句实现数据表管理

使用SQL语句实现数据插入、修改和删除操作

使用SQL语句实现数据查询操作

使用SQL语句管理索引

下一篇

DeepSeek-V2.5-1210 在线开放使用！支持联网搜索，在各大领域的表现得到全面提升