备案控制台

开发者社区数据库文章正文

53 Hive的SELECT操作

2023-11-01 48

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 53 Hive的SELECT操作

语法结构

SELECT [ALL | DISTINCT] select_expr, select_expr, ... 
FROM table_reference
[WHERE where_condition] 
[GROUP BY col_list [HAVING condition]] 
[CLUSTER BY col_list 
  | [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list] 
] 
[LIMIT number]

注：1、order by会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。

2、sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。

3、distribute by根据distribute by指定的内容将数据分到同一个reducer。

4、Cluster by 除了具有Distribute by的功能外，还会对该字段进行排序。因此，常常认为cluster by = distribute by + sort by。

具体实例

1、获取年龄大的3个学生

2、查询学生信息按年龄，降序排序

3、按学生名称汇总学生年龄

文章标签：

SQL

HIVE

阿甘兄

目录

相关文章

疯狂的猿

|

4月前

|

SQL Java 数据库连接

java链接hive数据库实现增删改查操作

java链接hive数据库实现增删改查操作

疯狂的猿

299 0 0

阿甘兄

|

10月前

|

SQL Java 数据库连接

Hive教程（08）- JDBC操作Hive

Hive教程（08）- JDBC操作Hive

阿甘兄

602 0 0

零零年夏

|

10月前

|

SQL 存储分布式计算

Hive的简单操作

Hive的简单操作

零零年夏

52 0 0

阿甘兄

|

10月前

|

SQL 缓存分布式计算

54 Hive的Join操作

54 Hive的Join操作

阿甘兄

114 0 0

热烈的马

|

4月前

|

SQL 分布式计算数据库

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

热烈的马

190 0 0

三分钟热度的鱼

|

2月前

|

SQL 关系型数据库 MySQL

实时计算 Flink版操作报错合集之从mysql读数据写到hive报错，是什么原因

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

三分钟热度的鱼

144 5 5

冲冲冲c

|

3月前

|

SQL 分布式计算 DataWorks

DataWorks操作报错合集之在进行Hive分区truncate操作时遇到权限不足，怎么解决

DataWorks是阿里云提供的一站式大数据开发与治理平台，支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中，可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

冲冲冲c

44 0 0

真的很搞笑

|

4月前

|

SQL DataWorks 网络安全

DataWorks操作报错合集之DataWorks连接Hive数据库时出现连接超时的问题如何解决

DataWorks是阿里云提供的一站式大数据开发与治理平台，支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中，可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

真的很搞笑

72 2 2

yuanzhengme

|

4月前

|

SQL 数据库 HIVE

Hive【基础知识 05】常用DDL操作（数据库操作+创建表+修改表+清空删除表+其他命令）

【4月更文挑战第8天】Hive【基础知识 05】常用DDL操作（数据库操作+创建表+修改表+清空删除表+其他命令）

yuanzhengme

74 0 0

疯狂的猿

|

4月前

|

SQL 数据库 HIVE

python链接hive数据库实现增删改查操作

python链接hive数据库实现增删改查操作

疯狂的猿

273 0 0

热门文章

最新文章

Hive之数据倾斜的原因和解决方法

Hive架构优点及使用场景

原来MaxCompute还能这么玩系列（2）—— 利用HiveServer2 Proxy实现MaxCompute与Hive生态工具的互通

HIVE的安装配置、mysql的安装、hive创建表、创建分区、修改表等内容、hive beeline使用、HIVE的四种数据导入方式、使用Java代码执行hive的sql命令

记一次hive里面统计数据报错

【阿里云 CDP 公开课】第八讲：Hive 迁移到 CDP

hadoop hive 手记

CDP中的Hive3系列之Apache Hive3的特性

HIVE 基本查询操作（二）——第2关：Hive数据类型和类型转换

Hive动态分区详解

DataWorks操作报错合集之DataWorks连接Hive数据库时出现连接超时的问题如何解决

[AIGC 大数据基础]hive浅谈

基于Hadoop数据仓库Hive1.2部署及使用

【Hive】所有的Hive任务都会有MapReduce的执行吗？

【Hive】Hive的函数：UDF、UDAF、UDTF的区别？

【Hive】Hive有哪些方式保存元数据，各有哪些特点？

【Hive】写出Hive中split、coalesce及collect_list函数的用法？

【Hive】请说明hive中 Sort By，Order By，Cluster By，Distrbute By各代表什么意思？

【Hive】请谈一下Hive的特点，Hive和RDBMS有什么异同？

相关课程

更多

大数据Hive教程精讲

SQL进阶及查询

相关电子书

更多

Comparison of Spark SQL with Hive

Hive Bucketing in Apache Spark

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

相关实验场景

更多

使用SQL语句实现数据表管理

使用SQL语句实现数据查询操作

使用SQL语句管理索引

SQLServer数据库的创建

一小时快速掌握 SQL 语法

SQL的增删改查及函数应用

下一篇

基于LNMP搭建WordPress