大数据Azkaban Work Flow实战

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 大数据Azkaban Work Flow实战

1 HelloWorld 案例

1)在 windows 环境,新建 azkaban.project 文件,编辑内容如下azkaban-flow-version: 2.0

注意:该文件作用,是采用新的 Flow-API 方式解析 flow 文件。


2.0 azkaban支持 properties配置文件,也支持yml配置文件!

3.0 azkaban默认支持yml配置文件!

1.1 yarm语法:

yml:  简洁,适合表示层级关系复杂的数据!
  • yml主要使用缩进表示层级关系,一旦下一行出现了缩进,表示下一行是上一行的子属性!
  • 缩进时,如果缩进的距离一致,层级一致!
  • 大量使用空格,缩进时不能使用tab,K-V之间必须使用空格!

K-V类型表示方法:

k:(空格)v

对象类型数据,map(k-v)

jack:
  name: jack
  age: 20

单行:

jack: {name: jack,age: 20}

数组类型数据,List,Set

fruits:
  - apple
  - banana

单行:

fruits: [apple,banana]

2)新建 basic.flow 文件,内容如下

nodes:
- name: jobA
  type: command
  config:
    command: echo "Hello World"

(1)Name:job 名称

(2)Type:job 类型。command 表示你要执行作业的方式为命令

(3)Config:job 配置

3)将 azkaban.project、basic.flow 文件压缩到一个 zip 文件,文件名称必须是英文。

4)在 WebServer 新建项目:http://hadoop102:8081/index

5)给项目名称命名和添加项目描述

6)first.zip 文件上传

7)选择上传的文件

8)执行任务流

9)在日志中,查看运行结果

2 作业依赖案例

需求:JobA 和 JobB 执行完了,才能执行 JobC

具体步骤:

2.1 修改 basic.flow 为如下内容

nodes:
- name: jobC
  type: command
# jobC 依赖 JobA 和 JobB
  dependsOn:
    - jobA
    - jobB
  config:
    command: echo "I’m JobC"
- name: jobA
  type: command
  config:
   command: echo "I’m JobA"
- name: jobB
  type: command
  config:
    command: echo "I’m JobB"

(1)dependsOn:作业依赖,后面案例中演示

2.2 将修改后的 basic.flow 和 azkaban.project 压缩成 second.zip 文件

2.3 重复 HelloWorld 后续步骤。

3 自动失败重试案例

需求:如果执行任务失败,需要重试 3 次,重试的时间间隔 10000ms

具体步骤:

3.1 编译配置流

nodes:
  - name: JobA
  type: command
  config:
    command: sh /not_exists.sh
    retries: 3
    retry.backoff: 10000

这个sh文件是不存在的

参数说明:

retries:重试次数

retry.backoff:重试的时间间隔

3.2 将修改后的 basic.flow 和 azkaban.project 压缩成 four.zip 文件

3.3 重复HelloWorld 后续步骤。

3.4 执行并观察到一次失败+三次重试

3.5 也可以点击上图中的 Log,在任务日志中看到,总共执行了 4 次

3.6 也可以在 Flow 全局配置中添加任务失败重试配置,此时重试配置会应用到所有 Job

案例如下:

config:
  retries: 3
  retry.backoff: 10000
nodes:
  - name: JobA
  type: command
  config:
    command: sh /not_exists.sh

4 手动失败重试案例

需求:JobA=》JobB(依赖于 A)=》JobC=》JobD=》JobE=》JobF。生产环境,任何 Job 都有可能挂掉,可以根据需求执行想要执行的 Job。

具体步骤:

4.1 编译配置流

nodes:
  - name: JobA
  type: command
  config:
    command: echo "This is JobA."
  - name: JobB
  type: command
  dependsOn:
    - JobA
  config:
    command: echo "This is JobB."
- name: JobC
  type: command
  dependsOn:
    - JobB
  config:
    command: echo "This is JobC."
- name: JobD
type: command
  dependsOn:
    - JobC
  config:
    command: echo "This is JobD."
  - name: JobE
  type: command
  dependsOn:
    - JobD
  config:
    command: echo "This is JobE."
- name: JobF
  type: command
  dependsOn:
    - JobE
  config:
    command: echo "This is JobF."

4.2 将修改后的 basic.flow 和 azkaban.project 压缩成 five.zip 文件

4.3 重复HelloWorld 后续步骤。

Enable 和 Disable 下面都分别有如下参数:

Parents:该作业的上一个任务

Ancestors:该作业前的所有任务

Children:该作业后的一个任务

Descendents:该作业后的所有任务

Enable All:所有的任务

4.4 可以根据需求选择性执行对应的任务。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
数据采集 大数据
大数据实战项目之电商数仓(二)
大数据实战项目之电商数仓(二)
|
22天前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
27天前
|
大数据 API 数据处理
揭秘!Flink如何从默默无闻到大数据界的璀璨明星?起源、设计理念与实战秘籍大公开!
【8月更文挑战第24天】Apache Flink是一款源自Stratosphere项目的开源流处理框架,由柏林理工大学等机构于2010至2014年间开发,并于2014年捐赠给Apache软件基金会。Flink设计之初即聚焦于提供统一的数据处理模型,支持事件时间处理、精确一次状态一致性等特性,实现了流批一体化处理。其核心优势包括高吞吐量、低延迟及强大的容错机制。
37 1
|
1月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
39 1
|
2月前
|
分布式计算 Apache Spark
|
2月前
|
分布式计算 Java 大数据
实战:基于Java的大数据处理与分析平台
实战:基于Java的大数据处理与分析平台
|
3月前
|
消息中间件 分布式计算 Hadoop
大数据实战项目之电商数仓(一)
大数据实战项目之电商数仓(一)
129 0
|
4月前
|
分布式计算 数据可视化 Hadoop
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
757 0
|
4月前
|
分布式计算 Java Hadoop
大数据实战——WordCount案例实践
大数据实战——WordCount案例实践
60 0
|
4月前
|
分布式计算 Hadoop Java
大数据实战平台环境搭建(下)
大数据实战平台环境搭建(下)
47 0

热门文章

最新文章