备案控制台

开发者社区大数据文章正文

记一个压缩格式的问题

2020-05-21 850

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 问题描述 Hive ORC table常规小文件过多问题，于是用Spark写了一个Application来自动的Merge分区数据，思路很简单大概就是 insert overwrite table partition (分区 XXX) select * from table where (分区 XXX)当然已经把该dataframe repartition到想要的目标并发度，来控制最终分区下的文件个数但是发现生成的文件个数虽然是对的，但是最后整个分区的Size竟然几乎翻倍。

问题描述

Hive ORC table常规小文件过多问题，于是用Spark写了一个Application来自动的Merge分区数据，思路很简单
大概就是

insert overwrite table partition (分区 XXX) select * from table where (分区 XXX)
当然已经把该dataframe repartition到想要的目标并发度，来控制最终分区下的文件个数

但是发现生成的文件个数虽然是对的，但是最后整个分区的Size竟然几乎翻倍。

排查过程以及结论

怀疑是Spark SQL没有压缩或者压缩格式不对

https://stackoverflow.com/questions/48759909/how-to-check-if-zlib-compression-is-enabled-in-hive-tables

用这个链接的方式自查一下
发现 hive 生成的文件默认是zlib
而spark生成的文件默认是snappy

这个导致了最终文件大小相差较大

文章标签：

分布式计算

SQL

Spark

HIVE

峰七（林学维）

目录

相关文章

算精通

|

3月前

【9月更文挑战第05天】

算精通

20 2 2

Byyyi

|

7月前

|

XML JSON 缓存

数据的格式与描述

数据的格式与描述

Byyyi

67 4 4

郏国上

|

7月前

|

存储编解码算法

图像的压缩算法--尺寸压缩、格式压缩和品质压缩

图像的压缩算法--尺寸压缩、格式压缩和品质压缩

郏国上

136 0 0

冷色系456

|

7月前

|

算法

443.压缩字符串

443.压缩字符串

冷色系456

31 0 0

Loken1

|

存储编解码算法

编码压缩介绍

压缩编码介绍，JPEG标准，H.264，AVS，预测，变换，量化，熵编码，环路滤波

Loken1

139 0 0

柳鲲鹏

7zip压缩zip格式时文件名支持中文的设置

7zip压缩zip格式时文件名支持中文的设置

柳鲲鹏

135 0 0

7zip压缩zip格式时文件名支持中文的设置

真题OK撒

1473. A + B 格式

1473. A + B 格式

真题OK撒

102 0 0

lizhengting

|

API Android开发

关于安卓图片压缩处理

安卓图片处理

lizhengting

156 0 0

负债程序猿

|

Java

Java字符串压缩（两种压缩方式）

第一种，只统计字符出现次数，比如aabcccccaaa，压缩成a5b1c5 思路：利用hashMap键的唯一性

负债程序猿

1266 0 0

科技探索者

虛擬磁盤的格式區別

科技探索者

953 0 0

热门文章

最新文章

天猫精灵开放平台-之小百科测评

语义检索系统：基于Milvus 搭建召回系统抽取向量进行检索，加速索引

3D立方体图片切换动画

模态对话框和非模态对话框

Windows XP客户端加域操作手册上

微信 6.5.1 for iOS发布可以在朋友圈分享相册中的视频

Chapter 1: Creating the GUI Form and Adding Widgets

【Mockplus教程】帐号和购买

「Mac畅玩鸿蒙与硬件42」UI互动应用篇19 - 数字键盘应用

赋能加速AI应用交付，F5 BIG-IP Next for Kubernetes方案解读

RAG分块策略：主流方法（递归、jina-seg）+前沿推荐（Meta-chunking、Late chunking、SLM-SFT）

Python学习的自我理解和想法（2）

Transformer图解

API安全专题：如何有效应对新型Bot攻击？

Selenium IDE：Web自动化测试的得力助手

《docker高级篇（大厂进阶）：5.Docker-compose容器编排》包括是什么能干嘛去哪下、Compose核心概念、Compose使用三个步骤、Compose常用命令、Compose编排微服务

24/7全时守护：AI视频监控技术的深度实现与应用分享

《docker高级篇（大厂进阶）：6.Docker轻量级可视化工具Portainer》

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云无影云电脑免费试用，最长可试用3个月