Hive----数据插入

简介: 集合数据类型


hive的集合数据类型包括三种,分别是Array、Map和Struct

 

建表

create table test

(

id INT,

name STRING,

hobby ARRAY<STRING>,                          //array中元素为String类型

friend MAP<STRING,STRING>,               //map中键和值均为String类型

mark struct<math:int,english:int>   //Struct中元素为Int类型

)

row format delimited fields terminated by ','   //字段之间用','分隔

collection items terminated by '_'                   //集合中的元素用'_'分隔

map keys terminated by ':'                               //map中键值对之间用':'分隔

lines terminated by '\n                                  //行之间用'\n'分隔

 

load 装载数据

1,xiaoming,basketball_game,xiaohong:yes_xiaohua:no,99_75

1,xiaohong,watch_study,xiaoming:no_xiaohua:not,95_95

 

load data inpath '/uesr/xiaoming/11.txt' overwrite into table test;

对于数据量较大,常用的一种方法是通过文件批量导入的方法

insert 插入数据

INSERT INTO test

SELECT

2,

'xiaohua',

array('basketball','read'),

str_to_map('xiaoming:no,xiaohong:no'),

named_struct('math',90,'english',90)

from tmp;

str_to_map() 函数

 

named_struct() 函数

 

查询数据

select

id,

name,

hobby[0],                            //查询第一个hobby

friend['xiaohong'],       //查询map键为xiaohong的value

mark.math                           //查询struct中math的值

from test

where name = 'xiaoming';

 

 

 

 


目录
相关文章
|
4月前
|
SQL 分布式计算 Hadoop
创建hive表并关联数据
创建hive表并关联数据
60 0
|
4月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
961 0
|
1月前
|
SQL 物联网 数据处理
"颠覆传统,Hive SQL与Flink激情碰撞!解锁流批一体数据处理新纪元,让数据决策力瞬间爆表,你准备好了吗?"
【8月更文挑战第9天】数据时代,实时性和准确性至关重要。传统上,批处理与流处理各司其职,但Apache Flink打破了这一界限,尤其Flink与Hive SQL的结合,开创了流批一体的数据处理新时代。这不仅简化了数据处理流程,还极大提升了效率和灵活性。例如,通过Flink SQL,可以轻松实现流数据与批数据的融合分析,无需在两者间切换。这种融合不仅降低了技术门槛,还为企业提供了更强大的数据支持,无论是在金融、电商还是物联网领域,都将发挥巨大作用。
39 6
|
23天前
|
SQL 关系型数据库 HIVE
实时计算 Flink版产品使用问题之如何将PostgreSQL数据实时入库Hive并实现断点续传
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
23天前
|
SQL 分布式计算 数据处理
实时计算 Flink版产品使用问题之怎么将数据从Hive表中读取并写入到另一个Hive表中
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
SQL 存储 分布式计算
|
1月前
|
SQL 存储 监控
Hive 插入大量数据
【8月更文挑战第15天】
|
2月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版操作报错合集之从mysql读数据写到hive报错,是什么原因
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
2月前
|
SQL DataWorks 监控
DataWorks产品使用合集之同步数据到Hive时,如何使用业务字段作为分区键
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。