Hive----存储格式

简介: 存储格式

hive中的数据默认存储格式为textfile格式

Hive支持的存储数据的格式主要有:TEXTFILE?、SEQUENCEFILE、ORC、PARQUET。

其中,textfile 和 SEQUENCEFILE 是行式存储,ORC 和 PARQUET 是列式存储

 

行式存储特点:

查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。

 

列存储的特点

因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。

 

使用textfile格式存储:

create table log_text(

track_time string,

url string,

session_id string,

referer string,

ip string,

city_id string

)

row format delimited fields terminated by '\t'

stored as textfile;

load data local inpath '/opt/module/datas/log.data' into table log_text;

 

dfs -du -h /hive/log_text/log.data;

 

使用orc格式存储:

create table log_orc(

track_time string,

url string,

session_id string,

referer string,

ip string,

city_id string

)

row format delimited fields terminated by '\t'

stored as orc;

 

insert into table log_orc

select track_time,url,session_id,referer,ip,city_id from log_text;

 

dfs -du -h /hive/log_orc/000000_0;  显示文件磁盘占用情况

 

使用PARQUET格式存储:

create table log_parquet(

track_time string,

url string,

session_id string,

referer string,

ip string,

city_id string

)

row format delimited fields terminated by '\t'

stored as parquet ;        

 

insert into table log_parquet

select * from log_text;

 

dfs -du -h /hive/log_parquet/000000_0;

 

存储文件的压缩比总结:

ORC > Parquet >  textFile > SEQUENCEFILE

 

 

create table log_seq(

track_time string,

url string,

session_id string,

referer string,

ip string,

city_id string

)

row format delimited fields terminated by '\t'

stored as SEQUENCEFILE;        

 

insert into table log_seq

select * from log_text;

 

dfs -du -h /hive/log_seq/000000_0;

目录
相关文章
|
7月前
|
存储 SQL Java
bigdata-18-Hive数据结构与存储格式
bigdata-18-Hive数据结构与存储格式
71 0
|
7月前
|
SQL 消息中间件 数据处理
DataX读取Hive Orc格式表丢失数据处理记录
DataX读取Hive Orc格式表丢失数据处理记录
274 0
|
2月前
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
61 2
|
4月前
|
存储 SQL 分布式计算
Hive存储表数据的默认位置详解
【8月更文挑战第31天】
315 1
|
7月前
|
存储 SQL 算法
【Hive】ORC、Parquet等列式存储的优点
【4月更文挑战第14天】【Hive】ORC、Parquet等列式存储的优点
|
7月前
|
SQL 存储 分布式计算
Hive【基础 01】核心概念+体系架构+数据类型+内容格式+存储格式+内外部表(部分图片来源于网络)
【4月更文挑战第6天】Hive【基础 01】核心概念+体系架构+数据类型+内容格式+存储格式+内外部表(部分图片来源于网络)
140 1
|
SQL 存储 分布式计算
Hive学习---6、文件格式和压缩
Hive学习---6、文件格式和压缩
Hive学习---6、文件格式和压缩
|
SQL 存储 数据可视化
Hive 支持的文件存储格式(重点)
Hive 支持的文件存储格式(重点)
491 0
|
存储 SQL 文件存储
Hive主流文件存储格式对比
### Hive 主流文件存储格式对比 ### 1、存储文件的压缩比测试 ##### 1.1 测试数据
214 0
|
SQL JSON 数据库
Json 内容转换为 Hive 所支持的文本格式1 | 学习笔记
快速学习 Json 内容转换为 Hive 所支持的文本格式1
222 0
Json 内容转换为 Hive 所支持的文本格式1  |  学习笔记