Apache Oozie-- 实战操作--集成 hue& 调度 hive 脚本|学习笔记

简介: 快速学习 Apache Oozie-- 实战操作--集成 hue& 调度 hive 脚本

开发者学堂课程【Oozie 知识精讲与实战演练Apache Oozie-- 实战操作--集成 hue& 调度 hive 脚本】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/716/detail/12793


Apache Oozie-- 实战操作--集成 hue& 调度 hive 脚本


内容介绍

一、利用 hue和 oozie 的整合调度执行 hive 脚本


一、利用 hue和 oozie 的整合调度执行 hive 脚本

1.在 HDFS 上创建一个 hive sql 脚本程序文件

打开 hive 页面,在HDFS里创建一个文件:点击右上角的 New 按钮,点击 File,把创建的文件命名为 hue_hive.sql。因为这个文件是空的,所以点击它,选择 Edit file,进行编辑,插入数据。首先使用 use default 数据库。如果此时编辑不好写,则打开浏览器进行相关的编写。再创建 create table t_hue_hive;(id int.name string); 在表格当中插入数据1号同学张三  insert into table t_hue_huehive values(1,"zhangsan") ; 再插入一个数据同学李四 insert into table t_hue_hue hive values(2,"lisi") ; sql 语序必须正确,否则 oozie 和 hive 便不能排错。

图片1.png

解读:使用 default 数据库,创建一个表格,插入两条数据。点击 Save 保存。

2.保存好后创建一个工作流程。

选择 Query 下的 Schedule 中的 Workflow。给工作流程重新命名为 hue hive。描述改为 itcast。然后进行拖拽。将 HiveServe2 Script 拖拽到下面。选择脚本的路径。点击选择路径为 oozie_hue 下的 hive.sql,点击 add 提交。点击保存,则右上角出现 submit 按钮,点击并提交。

点击 Jobs 并刷新,发现正在运行一个程序,绿色表示执行成功,黄色显示为正在执行中,红色表示执行失败。Jobs 显示所有的工作流程,Workflows 指 oozie 中的工作流程。点击 Workflows 浏览所有的工作流程。

图片2.png

可以看颜色或者 Status 来判断是否失败,如果失败,点击查看 logs 和 tasks。里面会描述出错和识别失败的原因。日志是排除错误的唯一依据。

3.工作流程执行成功之后进行验证

首先使用 default 数据,再show tables,则弹出表格,验证表格里的数据 select*from t-hue-hive,弹出一个表格,检查发现数据正确。这样便非常方便,我们则不需要在 HDFS 中编辑,只要保证 sql 是完整的,然后进行调度执行,便很方便。

图片3.png

4. 查看历史记录

选择 Query 下的 Schedule 中的 Workflow,点击右上角的三个点按钮下的 Workflows,记录了所有的工作流。如果需要修改,则双击工作流程,点击右上角的 Edit 按钮。也可以在之前添加其他的信息。比如添加 shell 脚本,并给它添加路径。这样便形成递进关系的工作流程。而且在它的左右前后都可以进行相关图标的拖拽。

相关文章
|
8月前
|
SQL 分布式计算 DataWorks
DataWorks报错问题之集成hive数据源报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
8月前
|
SQL DataWorks
如果源表名是小写,而DataWorks的数据集成脚本中使用的是大写表名
【1月更文挑战第6天】【1月更文挑战第30篇】如果源表名是小写,而DataWorks的数据集成脚本中使用的是大写表名
83 3
|
8月前
|
SQL Java 数据库连接
java链接hive数据库实现增删改查操作
java链接hive数据库实现增删改查操作
447 0
|
8月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
341 0
|
7月前
|
DataWorks Oracle 关系型数据库
DataWorks产品使用合集之手动添加上了,但是同步过来的数据这个字段依然显示为空,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版操作报错合集之从mysql读数据写到hive报错,是什么原因
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
7月前
|
SQL 缓存 关系型数据库
ClickHouse(19)ClickHouse集成Hive表引擎详细解析
Hive引擎允许对HDFS Hive表执行 `SELECT` 查询。目前它支持如下输入格式: -文本:只支持简单的标量列类型,除了 `Binary` - ORC:支持简单的标量列类型,除了`char`; 只支持 `array` 这样的复杂类型 - Parquet:支持所有简单标量列类型;只支持 `array` 这样的复杂类型
248 1
|
7月前
|
弹性计算 分布式计算 DataWorks
DataWorks产品使用合集之在脚本离线同步节点如何修改集成资源组
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
7月前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在进行Hive分区truncate操作时遇到权限不足,怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
100 0
|
8月前
|
SQL DataWorks 网络安全
DataWorks操作报错合集之DataWorks连接Hive数据库时出现连接超时的问题如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
126 2

热门文章

最新文章

推荐镜像

更多