Apache Oozie-- 实战操作--集成 hue- 定时调度配置|学习笔记

简介: 快速学习 Apache Oozie-- 实战操作--集成 hue- 定时调度配置

开发者学堂课程【Oozie 知识精讲与实战演练Apache Oozie-- 实战操作--集成  hue- 定时调度配置】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/716/detail/12795


Apache Oozie-- 实战操作--集成 hue- 定时调度配置


内容介绍:

一、利用 Hue 配置定时调度任务的具体操作

二、如何查看配置调度任务的正确性

三、查找任务配置执行的地方

四、利用 Hue 配置定时调度任务的好处

五、Workflow,Schedule,Bundle 之间的关系


一、利用 Hue 配置定时调度任务的具体操作

在 oozie中,普通的 Workflow 并不能满足于周期的定期执行,因此需要一个协调执行者叫做 coordinator在 Hue 当中与 oozie 整合之后也同样可以配置定时调度任务,操作如下:

1、打开浏览器,点击 Query 下面的 Scheduler ,不再选择 Workflow。原因: Workflow 是一个普通的工作流需要手动提交。

图片1.png

2、选择 Scheduler,打开之后为 Scheduler 的相关编辑页面,首先可以为调度任务命名,单击 My Schedule, 例如选择叫做 hue Schedule,此任务便是通过 hue 来调度的。下边的描述根据自己的需求而定,可写可不写。

3、选择需要调度的工作流,点击选择按钮后显示出当下 Hue,Oozie 中已经保存好的工作流。

图片2.png

4、要想对一个工作流进行调度,必须先将工作流编辑好。以 hue shell 为例,开启一个定时调度任务,定制周期 How often(多久一次)的操作如下 ,点击  How often 下面的选项 Options,点击进去里边有非常重要的 Timezone 时区,当下无论是 Hue 还是 Oozie 的配置中都要选择 Asia/Shangha i东八区,时区一定要正确,涉及到时间定时执行,差几个时区是非常严重的。选择好之后会有两个时间——开始时间和结束时间。开始时间一定要未来时间,不能选择过去时间,比如选择开始时间为14:46,选择好之后下边有结束时间。设置好之后可以选择多长时间进行一次,可以是每一天每一周等,时间可以随便选择,例如可以让任务每小时执行一次,如果选择1那么就是在0,1执行,如果都不选择那么就是all,即每分钟执行一次。这个时候进行相关的选择会非常方便,鼠标点点就可以完成,不需要写相关的表达式。这样就是从下午的2:46开始,每分钟执行一次。如果有参数可以选择参数,修改好时区、开始时间、结束时间以及参数后点击 save 保存,保存之后便可将设好的工作流点击 Submit 提交。

图片3.png

5、提交的时间可以做一个相关的验证,点击 Schedules 可以看到配置的调度任务 hue Schedule,此任务现在的状态为 Running (跑)。当满足时间,任务执行时,点击 jobs ,然后点击刷新,便可以查看任务在 Running 的执行效果。打开 Schedules 里面有相关的信息,包括 Tasks(任务)、Logs(日志)、Properties(配置参数)、XML(文件属性)。其中 Tasks 很重要里面例举出了接下来任务执行需要进行的时间段。

图片4.png 

二、如何查看配置调度任务的正确性

1、处于 waiting 状态说明没有执行,没有满足时间。到达时间后,状态立即变成running,即到了时间触发。出现 succeeded,则证明任务成功。

2、如果任务执行错误,点击任务进去之后查看具体的相关执行日志Logs,Properties,XML 查找问题。

三、这样就完成了相关的配置,就会满足通过 hue 和 oozie 整合去提交定时调度任务。


三、验证任务配置执行的结果

来到 node-1服务器上查看并没有输出日志,在这时有一个小技巧来查看执行的程序在哪里,首先在历史日志服务器中输入 node-1:19888 显示出执行完的相关日志的排码情况。随便点进去一个,点击 Map 便可出来相关的日志,运行在 node-3 这台机器上,来到 node-3 服务器上克隆一个新的会画,可以看出多了一个 hellohue.txt,在这里就是相关的时间,就完成了一个相关的执行。这便是所学的利用 hue 和 oozie 整合之后去配置定时调度任务。

图片5.png

 

四、利用 Hue 配置定时调度任务的好处

极大方便了使用者去编写各种定时频率的时间的表达式


五、Workflow,Schedule,Bundle 之间的关系

除了可以用 Workflow 调度之外还可以创建 Bundle,即一个批示可以创建多个调度。当点击 Bundle 之后,选择 coordinator,看到这里可以看出 Workflow,Schedule,Bundle 之间的关系。关系如下:

1、workflow 普通的工作流

2、schedule 针对 workflow 做一个定时

3、Bundle 为 schedule 做一个批处理。

例如有两个定时调度任务,一个是1:00执行的,一个是在1:20执行的,需要在一个批示进行处理,那么创立一个 Bundle 绑定两个 schedule 便可以搞定。这样利用 hue 和 oozie  整合之后进行任务调度将会极大的方便,在企业中也很少手动的去编写 oozie 的配置文件,通过 hue 会极大地方便开发。

图片6.png 

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
3月前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
415 101
|
6月前
|
缓存 监控 安全
通义大模型与现有企业系统集成实战《CRM案例分析与安全最佳实践》
本文档详细介绍了基于通义大模型的CRM系统集成架构设计与优化实践。涵盖混合部署架构演进(新增向量缓存、双通道同步)、性能基准测试对比、客户意图分析模块、商机预测系统等核心功能实现。同时,深入探讨了安全防护体系、三级缓存架构、请求批处理优化及故障处理机制,并展示了实时客户画像生成和动态提示词工程。通过实施,显著提升客服响应速度(425%)、商机识别准确率(37%)及客户满意度(15%)。最后,规划了技术演进路线图,从单点集成迈向自主优化阶段,推动业务效率与价值持续增长。
270 8
|
7月前
|
SQL Java 关系型数据库
Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
181 5
|
3月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
588 12
|
4月前
|
人工智能 自然语言处理 分布式计算
AI 驱动传统 Java 应用集成的关键技术与实战应用指南
本文探讨了如何将AI技术与传统Java应用集成,助力企业实现数字化转型。内容涵盖DJL、Deeplearning4j等主流AI框架选择,技术融合方案,模型部署策略,以及智能客服、财务审核、设备诊断等实战应用案例,全面解析Java系统如何通过AI实现智能化升级与效率提升。
384 0
|
7月前
|
人工智能 安全 Shell
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
Jupyter MCP服务器基于模型上下文协议(MCP),实现大型语言模型与Jupyter环境的无缝集成。它通过标准化接口,让AI模型安全访问和操作Jupyter核心组件,如内核、文件系统和终端。本文深入解析其技术架构、功能特性及部署方法。MCP服务器解决了传统AI模型缺乏实时上下文感知的问题,支持代码执行、变量状态获取、文件管理等功能,提升编程效率。同时,严格的权限控制确保了安全性。作为智能化交互工具,Jupyter MCP为动态计算环境与AI模型之间搭建了高效桥梁。
544 2
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
|
7月前
|
JSON JavaScript API
MCP 实战:用配置与真实代码玩转 GitHub 集成
MCP 实战:用配置与真实代码玩转 GitHub 集成
1627 4
|
2月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
450 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
355 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
4月前
|
SQL 人工智能 数据挖掘
Apache Flink:从实时数据分析到实时AI
Apache Flink 是实时数据处理领域的核心技术,历经十年发展,已从学术项目成长为实时计算的事实标准。它在现代数据架构中发挥着关键作用,支持实时数据分析、湖仓集成及实时 AI 应用。随着 Flink 2.0 的发布,其在流式湖仓、AI 驱动决策等方面展现出强大潜力,正推动企业迈向智能化、实时化的新阶段。
601 9
Apache Flink:从实时数据分析到实时AI

热门文章

最新文章

推荐镜像

更多