Hive----语句执行顺序-阿里云开发者社区

Hive----语句执行顺序

2022-05-24 361

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 语句执行顺序

hive查询语句的执行顺序：

关键词	备注
(1) from
(2) on
(3) join	full join 合并，不去重，列拼接
(4) where
(5) group by	同时计算聚合函数，具有去重作用，分组去重，效率比distinct高；一定要与聚合函数连用
(6) having	必须跟 group by 连用
(7) select	由于select执行顺序在 guoup by 之后，因此如果某字段用到函数处理，且该字段恰又被聚合函数使用，需在查询语句中嵌套子查询，内层计算字段处理函数，外层计算聚合函数若语句含有函数，先执行非开窗函数，然后执行开窗函数，然后 select 查询所有字段，开窗函数通过表数据进行分区和排序，跟select 查询中的其它字段是平行关系，不依赖查询字段
(8) distinct	去重，需要加载整个表的数据到一个reduce，效率较低，会导致数据倾斜，不如group by好用法：放在字段名称前面
(9) distribute by /cluster by	cluster by 相当于合并了distribute by与sort by
(10) sort by	局部排序，每个reduce内部的排序
(11) order by	全局排序
(12) limit
(13) union /union all	union 去重，行拼接，字段得相同；union all 不去重合并，也可用于数据插入使用

注：此执行顺序为SQL语句的执行顺序，非Hive执行计划中的执行顺序！

distinct

SELECT DISTINCT class from stud ；取出stud表中的班级有哪些，distinct 负责去重！

主要用于去重

注意事项：

distinct 与all（代表查询所有，默认省略）相对应，不能同时使用
当 distinct 应用后面所有字段时，应放到最前面（select 之后），字段不加括号

selelct distinct name,city from student;

distinct 单独用于某个字段时，需要加上括号

select count(distinct (user_id));

特殊案例：

select count(distinct name) from A; --表中name去重后的数目，此写法SQL Server支持，而Access不支持

文章标签：

SQL

HIVE

关键词：

Hive执行顺序

Hive----语句执行顺序

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Hive----语句执行顺序

热门文章

最新文章

相关课程

相关电子书

相关实验场景