hive 数据源,yarn 集群测试, SQL 分别取 topN4 | 学习笔记

简介: 快速学习 hive 数据源,yarn 集群测试, SQL 分别取 topN4

开发者学堂课程【大数据实时计算框架Spark快速入门hive 数据源,yarn 集群测试,SQL 分别取 topN4 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1717


hive 数据源,yarn  集群测试,SQL  分别取  topN4


内容介绍:

一、具体内容

二、开窗函数

三、开窗函数的作用


一、具体内容

如果第一次没有跑成功,那么会在 node  里面再来跑一次,要将三个包,放到ADFS  里面去,不是直接, put  上去的。

我们只是要在代码里面—— jars  里面把三个包传到  ADFS  里面去,把下面的  copy  进去,在里面再执行一次,刚跑了四个模式,只是  yarn,class  ,还需要加——  jars,

其他都不需要加,  upnode  三个包,上传到  ADFS  里面去,这样来跑的话就没有问题。如果  applicationmaster  里面跑两次,第一次没有抛成功,  attempt number   如果第一次成功就不用再尝试第二次了,所以很多时候在跑的时候,看页面,去第一次里面看  log  日志,看8088页面把包名都看成名称了,点applicationmaster   ,每次提交一个  application  都会上传一个包,点一个applicationmaster  就会跳到熟悉的  spark UI  里面来,也就是说如果你把  spark程序通过  unyark  程序来执行的话也是可以看到  applicationUI  的,点applicationmaster  会进入到  tracking UI  里面来,看整个日志,点整个  ID  ,点logs  然后输出日志。正常执行就是有正常输出,集群模式那个  driver  可以用在集群里面,整个信息是在申请资源的信息里面,  master  是申请资源,开始抛起来,真正输出日志的信息就在页面里面,这里面只是抛一下告诉客户端,以及资源的使用情况,就是资源的申请情况。另一边,告诉了一个错就开始尝试第二次了,尝试两次还会有问题,就不再尝试了,这是  yarn  里面默认的机制,默认尝试的次数就是两次,来读  hive  的数据, hive  的数据源,hive  跟  sparksqL  整合在一起,直接可以读到存的地方,可以直接读到表,把  hive——site  存到  spark/conf/  目录下,接着把四种模式执行一遍,就成功了。


二、开窗函数

就是使用  sparkSQL  来做到咱们  topN  ,来读  hive  的数据,不能本级测试,接着删除 sql 表,把本地的数据导到  hive  里面去。


三、开窗函数的作用

就是给每一个分组的数据,按照其排序的顺序,打上一个分组内的标号,比如说有一个分组按照日期来分组,查看三组数据,那么这个分组的每一行使用  row,number  开窗函数以后,这三个行号会打上一个组内的行号,行号是从1开始递增,

比如最后结果是  11211,11212,2,11213,3  那么我们直接从  sql  语句直接看出我们直接对  sales  表开窗。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
3月前
|
算法 数据挖掘 数据库
通过 SQL 快速使用 OceanBase 向量检索学习笔记
通过 SQL 快速使用 OceanBase 向量检索学习笔记
|
3月前
|
SQL 数据库
SQL 学习笔记 - 多表关系与多表查询
数据库多表关系包括一对多、多对多和一对一,常用外键关联。多表查询方式有隐式/显式内连接、外连接、子查询等,支持别名和条件筛选。子查询分为标量、列、行、表子查询,常用于复杂查询场景。
|
9月前
|
SQL 分布式计算 资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
370 4
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
255 3
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
283 2
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
219 2
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
452 0
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
281 0
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
301 0
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
245 0