Apache Oozie一实战操作一调度 shell 脚本|学习笔记

简介: 快速学习 Apache Oozie一 实战操作一调度 shell 脚本

开发者学堂课程【Oozie 知识精讲与实战演练Apache Oozie一实战操作一调度 shell 脚本】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/716/detail/12787


Apache Oozie一实战操作一调度 shell 脚本


内容介绍

一、Oozie 调度 shell 脚本


一、Oozie 调度 shell 脚本

1、根据官方自带示例准备配置模板,根据配置模板和情况做一些相关修改。比如具体参数具体路径在哪里。把配置文件连同 shell 脚本一起上传到指定的工作路径下。

cd /export/servers/oozie-4.1.0-cdh5.14.0

cp -r examples/apps/shell/ oozie_works/ 把文件夹及所有同时拷贝到这个文件当中。

把shell的任务模板拷贝到 oozie 指定的工作目录当中去,涉及到配置文件的修改,所以一定要细心。

首先准备一下配置模板,在官方自带的 examples 当中有 shell 脚本调用的相关示例。

[root@node-1oozie-4.1.0-cdh5.14.0]#11oozie_works/she11/

total 8

-rw-r--r--. 1 root root 971 Jun 8 20:30 job.properties

-rw-r--r--. 1 root root 2075 Jun 820:30workf1ow.xm]

[root@node-1oozie-4.1.0-cdh5.14.0]#

workf1ow.xm 是工作流的核心配置文件,里面有相关的流程和节点信息,另外一个就是任务的相关属性信息,提交程序的地点和路径等。

2.准备待调度的 shell 脚本文件

针对 oozie 来说,只关心 shell 能不能执行,如果不能执行,那就是 shell 程序书写问题。

注意:这个脚本一定要是在 oozie 工作路径下的shell 路径下的位置,也就是说和workf1ow.xm 和 job.properties 属于同一级数据。

cd /export/servers/oozie-4.1.0-cdh5.14.0

vim oozie_works/shell/hello.sh

直接输出 helloworld,追踪到 export/servers/hello oozietxt

#!/bin/bash

echo"helloworld">>/export/servers/hello oozietxt

将以上步骤复制并执行,保存后CD到 oozie works 当中对两个配置文件进行相关的编写,一个是在 oozie_works/she11/

[root@node-1 she11]# 11 total 12

-rw-r--r--. 1 root root 66 Jun 8 20:32 he1lo.sh

-rw-r--r--. 1 root root 971 Jun 8 20:30 job.properties

-rw-r--r--. 1 root root 2075 Jun 8 20:30 workf1ow.xm]

[root@node-1 she11]#

3.修改配置模板

这里只要去指定 oozie 任务节点相关信息,属性,路径等,通过对 oozie 的学习知道,首先启动时会有一个 m 码程序,通过 m 码程序再去提交各种后续任务。

修改 job.properties

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/shell

vim job.properties

nameNode=hdfs://node-1:8020(这里要保持一致)

jobTracker=node-1:8032

queueName=default

examplesRoot=oozie works

ooziewfapplicationpath=${nameNode}/user/${username)/${examplesRoot}/shell

EXEC=hello.sh

指定 NameNode,端口是8020,

Job Tracker: 在hadoop2 当中,jobTracker 这种角色已经没有了,只有 Resource Manager,这里给定                                                                                                                 resourceManager 的 IP 及端口即可,端口默认8032。

queueName: 提交 mr 任务的队列名;

examplesRoot: 指定 oozie 的工作目录;

oozie.wf.application.path:工 作流应用的路径,oozies 首先执行 mr 程序,mr 执行任务资源在此路径下,需要把本地的文件上传到这个路径当中。使用变量引用方式获取很多值。nameNode                                            是访问的地址,根目录下是 user/${username),参数为 oozies works 保持一致。

EXEC: 指定执行任务的名称。

以上是外围的相关信息并不能描绘出 oozie 工作流的流程。以下是整个工作流的核心,在 workflow.xml,当中是各种控制节点和动作节点。

4.修改 workflow.xml

开始节点:

地址:

${jobTracker}

${nameNode}

mapred.job.queue.name

${queueName

地址是通过$引用变量的形式提取到配置的值,很重要

执行脚本:${EXEC}

文件路径:/user/root/oozie_works/ shell/${EXEC}#${EXEC}

成功:

失败:

${wf:actionData(shell-node)[my_output']eqHello Oozie'}

信息:Shell action failed, error

message[${wf:errorMessage(wf:lastErrorNode())}]

Incorrect output,expected [Hello Oozie]but was[${wfactionData(shell node')[my_output']}]

当中的任何细节执行出错的话都会导致执行失败。

Shell action failed 提示失败。

这样就完成了工作流的核心与配置,将以上代码进行核对并修改。第一种可以回到node 中使用编辑器进行修改,第二种可以进行 notepad 远程修改文件。

打开 notepad++,使用 NPPFTP 方式连接到机器上,然后点击刷新,在刷新下有一个叫做 Ooziework,点进去是刚才拷贝的文件,首先修改这个叫job.properties。

nameNode=hdfs://node-1:9000(要跟你的机型保持一致)

查看配置是可以去查看hdoop.pwd来查看,在hdoop文件当中有个core-site.xm1,这里面就指定了机器的属性

jobTracker=node-1:8032

queueName=default

examplesRoot=oozie_worksoozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/shell

EXEC=hello.sh

这样就完成了第一个配置文件的编写。

同样使用远程编辑形式修改workflow.xml,主要修改一下部分,其他地方不用动

任务名称:echo

路径:my_output=Hello Oozie

更改成

${EXEC}

/user/root/oozie_works/shell/${EXEC}#${EXEC}

一个是他执行的任务名称,一个是他执行的路径,这两个缺一不可,因为他知道他要干什么,也知道执行的东西在哪里。

执行结束之后直接跳转到end节点,error到失败节点,其他东西如果有需要自己添加,无需要保存即可。

这样就完成了workfollow的流程

5.上传调度任务到hdfs

这个路径刚好是之前配置的路径${nameNode}/user/${username/${examplesRoot}/shell

注意:上传的hdfs目录为/user/root,因为hadoop启动的时候使用的是root

用户,如果hadoop启动的是其他用户,那么就上传到/user/其他用户

cd /export/servers/oozie-4.1.0-cdh5.14.0

hdfs dfs -put oozie_works//user/root

复制之后一定要验证文件对不对,上传好后如下图:

图片1.png 

6.执行调度任务

通过oozie的命令来执行调度任务

指定服务器地址,指定配置文件位于的路径

cd /export/servers/oozie-4.1.0-cdh5.14.0

bin/oozie I job o-oozie http://node-1:11000/oozie -config oozie_works/shell/job.properties -run

复制后进行简单的修改,就可以完成任务的提交

图片2.png

从监控界面可以看到任务执行成功了。

[root@node-1 oozie-4.1.0-cdh5.14.0]# bin/oozie job -oozie http://node-1:11000/oozie -config oozie_works/she11/job

job:0000000-190608181008722-00zie-root-W

[root@node-oozie-4.1.0-cdh5.14.0]#

图片3.png

这里就会显示出来工作流执行,显示状态是成功的,打开端口node-1.8088

图片4.png

这时候就可以发现有个m码程序,这个m码程序就是oozie执行的m码程序。首先强调一下oozie启动的时候首先会启动没有rdtas的m码程序,通过m码程序去执行任务的调度

打开jobhistory进行刷新,会发现刚才提交的任务程序。

图片5.png

点任务编号进去就可以看到里面执行的相关逻辑,点击map,就可以看到他是在那台机器上运行的了,可以看到最终结果文件是在node-1。

图片6.png

Cd到/export/servers/hello_oozie.txt,会发现多了个文件hello_oozie.txt,文件内容去cat一下,整个就是hello_oozie.txt

7.小记:

oozie调度流程

l 根据官方自带的示例编写配置文件

job.properties workflow.xml

l 把任务配置信息连同依赖的资源一起上传到hdfs指定的路径 这个路径在配置中有

l 利用oozie的命令进行提交

相关文章
|
3月前
|
存储 安全 Unix
七、Linux Shell 与脚本基础
别再一遍遍地敲重复的命令了,把它们写进Shell脚本,就能一键搞定。脚本本质上就是个存着一堆命令的文本文件,但要让它“活”起来,有几个关键点:文件开头最好用#!/usr/bin/env bash来指定解释器,并用chmod +x给它执行权限。执行时也有讲究:./script.sh是在一个新“房间”(子Shell)里跑,不影响你;而source script.sh是在当前“房间”里跑,适合用来加载环境变量和配置文件。
460 9
|
3月前
|
存储 Shell Linux
八、Linux Shell 脚本:变量与字符串
Shell脚本里的变量就像一个个贴着标签的“箱子”。装东西(赋值)时,=两边千万不能有空格。用单引号''装进去的东西会原封不动,用双引号""则会让里面的$变量先“变身”再装箱。默认箱子只能在当前“房间”(Shell进程)用,想让隔壁房间(子进程)也能看到,就得给箱子盖个export的“出口”戳。此外,Shell还自带了$?(上条命令的成绩单)和$1(别人递进来的第一个包裹)等许多特殊箱子,非常有用。
374 2
|
6月前
|
Shell
Shell脚本循环控制:shift、continue、break、exit指令
使用这些命令可以让你的Shell脚本像有生命一样动起来。正确使用它们,你的脚本就能像一场精心编排的舞蹈剧目,既有旋律的起伏,也有节奏的跳跃,最终以一场惊艳的表演结束。每一个动作、每一个转折点,都准确、优雅地完成所需要表达的逻辑。如此,你的脚本不只是冰冷的代码,它透过终端的界面,跳着有节奏的舞蹈,走进观众——使用者的心中。
291 60
|
3月前
|
数据采集 监控 Shell
无需Python:Shell脚本如何成为你的自动化爬虫引擎?
Shell脚本利用curl/wget发起请求,结合文本处理工具构建轻量级爬虫,支持并行加速、定时任务、增量抓取及分布式部署。通过随机UA、异常重试等优化提升稳定性,适用于日志监控、价格追踪等场景。相比Python,具备启动快、资源占用低的优势,适合嵌入式或老旧服务器环境,复杂任务可结合Python实现混合编程。
|
9月前
|
关系型数据库 MySQL Shell
MySQL 备份 Shell 脚本:支持远程同步与阿里云 OSS 备份
一款自动化 MySQL 备份 Shell 脚本,支持本地存储、远程服务器同步(SSH+rsync)、阿里云 OSS 备份,并自动清理过期备份。适用于数据库管理员和开发者,帮助确保数据安全。
|
5月前
|
Web App开发 缓存 安全
Linux一键清理系统垃圾:释放30GB空间的Shell脚本实战​
这篇博客介绍了一个实用的Linux系统盘清理脚本,主要功能包括: 安全权限检查和旧内核清理,保留当前使用内核 7天以上日志文件清理和系统日志压缩 浏览器缓存(Chrome/Firefox)、APT缓存、临时文件清理 智能清理Snap旧版本和Docker无用数据 提供磁盘空间使用前后对比和大文件查找功能 脚本采用交互式设计确保安全性,适合定期维护开发环境、服务器和个人电脑。文章详细解析了脚本的关键功能代码,并给出了使用建议。完整脚本已开源,用户可根据需求自定义调整清理策略。
676 0
|
7月前
|
存储 Unix Shell
确定Shell脚本在操作系统中的具体位置方法。
这对于掌握Linux的文件系统组织结构和路径方面的理解很有帮助,是我们日常工作和学习中都可能使用到的知识。以上讲解详细清晰,应用简便,是每一个想要精通操作系统的计算机爱好者必备的实用技能。
210 17
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
774 5
|
7月前
|
Linux Shell
Centos或Linux编写一键式Shell脚本删除用户、组指导手册
Centos或Linux编写一键式Shell脚本删除用户、组指导手册
228 4
|
7月前
|
Linux Shell 数据安全/隐私保护
Centos或Linux编写一键式Shell脚本创建用户、组、目录分配权限指导手册
Centos或Linux编写一键式Shell脚本创建用户、组、目录分配权限指导手册
452 3

推荐镜像

更多