2.DataWorks 调度依赖之跨周期依赖(二)|学习笔记

简介: 快速学习2.DataWorks 调度依赖之跨周期依赖

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:2.DataWorks 调度依赖之跨周期依赖】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1239


2.DataWorks 调度依赖之跨周期依赖(二)

四、典型场景

1、[典型场景一] “一层子节点"应用场景:对本节点的结果表进行清洗,查看是否正常产出最终结果

2、[典型场景二] Q:天任务依赖小时任务,不想等24个小时任务实例跑完才跑天任务,天任务希望尽量按定时时间12:00跑 A:上游小时任务配置"依赖上-周期"选"本节点"; 下游天任务定时调度时间选12:00,天任务不需要设置跨周期 依赖。这样天任务就会在12点开始跑,且依赖最新跑完的那个小时任务实例的数据(下有图解)

3、[典型场景三]  Q:天任务依赖小时任务昨天的数据 A:下游天任务配置"依赖上一周期“选"自定义",填上游小时任务的id

4、[典型场景四] Q:小时任务依赖天任务,上游天任务跑完,下游小时任务多个周期定时时间已到,导致小时任务多周期并发调起 怎么办 A:下游小时任务配置"依赖上- -周期"选"本节点" (下有图解)

5、[典型场景五] Q:本节点依赖自己的上一周期产出的数据,不知上一周期何时产出 A:本节点配置"依赖上一周期"选"本节点"  五、实操 1、实操配置场景三,进入datastudio,新建一个业务流程,需要一个start节点,也就是虚拟节点,新建一个小时任务,新建一个天任务。场景的需求是天任务依赖小时任务昨天的数据,配置方法就是下游天任务配置依赖上一周期,选择自定义填小时任务,填写小时任务的ID。即可能开始配置虚拟节点,调度配置两处,一个是上游属性,本周期依赖是选择使用工作空间跟节点作为上游,保存提交。

五、实操

1、实操配置场景三,进入 datastudio,新建一个业务流程,需要一个 start 节点,也就是虚拟节点,新建一个小时任务,新建一个天任务。场景的需求是天任务依赖小时任务昨天的数据,配置方法就是下游天任务配置依赖上一周期,选择自定义填小时任务,填写小时任务的ID。即可能开始配置虚拟节点,调度配置两处,一个是上游属性,本周期依赖是选择使用工作空间跟节点作为上游,保存提交。

20.png

2、配置小时任务,选择重跑属性,调度周期它是小时的,所以选择小时任务,开始时间不做改动,0点开始23:59结束,每小时一个,一共24个实例,要挂在虚拟节点下面,所以到虚拟节点复制它的本节点输出名,只有被提交过的任务,才可以搜索到添加、保存、提交。

3、配置天任务,一样的重跑属性,调度周期不做改动,它是天任务,注意实例生成方式,三个都是t+1次生成的,注意配置跨周期依赖,所以选择依赖上一周期,选择自定义,需要获取小时任务的节点ID,小时任务的节点ID同样也是需要提交以后才可以获取到的。这时跨周期配置好了,发现本周期这里一个上游都没有,这样是不允许被提交的。建议是配置一个虚拟节点,挂在虚像刚配置虚拟节点,配置一个虚拟节点,挂载在虚拟节点上面,使用工作空间跟节点,配置完成保存提交。  222.png4、进入任务发布界面,这三个节点就是刚刚提交的节点,跨周期依赖所填的节点ID必须保证线上存在,那现在只是提交,所以线上都还不存在,如果这时提交天任务就会报错,那需要先把虚拟节点和小时任务先发布,再发布天任务。

5、先发布两个。这时小时任务线上已经存在,再发布天任务,不会报错,复制天任务的节点ID,进入运维中心,查看周期任务的关系图。这就是刚发布的三个节点,天任务依赖小时任务,是跨周期依赖且挂载在工作空间跟节点下面。

24.png6、由于是t+1次生成的,所以次日生成,现在是看不到实例的效果图,只能找一个已经存在的来看效果。获取它的节点ID,复制到运维中心,周期实例,这是最后会产生的一个效果图,是24个小时任务,昨天的实例,加一个虚拟节点,今天的实例,都是虚线,唯独这虚节点是实线,下游是天任务,符合预期,实操结束回到PPT界面。

 

六、Tips

1、tip1: 跨周期依赖中容易遇到提交报错无上游的情况,可以新建一个虚拟节点作为上游。虚拟节点的作用就是如果全部都配置在工作空间跟节点下面,不便于日后管理节点,虚拟节点就是为了方便管理,可以帮助更好的管理节点。

2、tip2 : 跨周期依赖和本周期依赖不重复配置依赖。依赖一个自定义节点,假如重复配置,那上游小时任务就有48个实例了,天任务不运行,这就是重复配置依赖了,所以要注意。

3、tip3: 上游为分支节点,分支配置了跨周期依赖建议勾选"上游空跑属性不进行跨周期传导”。比如上游分支节点,第一天运行时命命中了左侧分支,那右侧就会空跑。假如第二天命中了右侧,它也是不会运行的,它还是会空跑,因为空跑属性会向下传导,这时需要勾选空跑属性不向下传,不进行跨周期传导,这样就可以避免那个问题。  

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
11月前
|
SQL 分布式计算 DataWorks
如何让DataWorks调度依赖一个非DataWorks的任务结点,如数据上传任务?
如何让DataWorks调度依赖一个非DataWorks的任务结点,如数据上传任务?创建一个表的空分区,然后通过DataWorks去检查这个分区。
215 7
|
SQL DataWorks 安全
DataWorks产品使用合集之如何实现分钟级调度
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之调度任务时怎么指定时间函数格式
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
11月前
|
DataWorks 监控 数据建模
DataWorks产品体验评测
DataWorks产品体验评测
|
SQL DataWorks 数据可视化
DataWorks产品体验与评测
在当今数字化时代,数据处理的重要性不言而喻。DataWorks作为一款数据开发治理平台,在数据处理领域占据着重要的地位。通过对DataWorks产品的体验使用,我们可以深入了解其功能、优势以及存在的问题,并且与其他数据处理工具进行对比,从而为企业、工作或学习中的数据处理提供有价值的参考。
466 6
DataWorks产品体验与评测
|
11月前
|
分布式计算 DataWorks 搜索推荐
DataWorks 产品评测与最佳实践探索!
DataWorks 是阿里巴巴推出的一站式智能大数据开发治理平台,内置15年实践经验,集成多种大数据与AI服务。本文通过实际使用角度,探讨其优势、潜力及改进建议。评测涵盖用户画像分析、数据治理、功能表现等方面,适合数字化转型企业参考。
277 1
|
12月前
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评
|
11月前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
494 1
|
SQL DataWorks 搜索推荐
DataWorks产品评测与最佳实践体验报告
DataWorks是阿里巴巴云推出的一款高效数据处理平台,通过内置的数据集成工具和ETL功能,实现了多源数据的自动化处理与分析。本文介绍了DataWorks在用户画像分析中的应用实践,展示了其如何帮助企业高效管理数据资源,支持决策制定及营销优化。同时,文章还评测了DataWorks的产品体验,包括开通流程、功能满足度等方面,并与其它数据开发平台进行了比较,突出了DataWorks在易用性、性能和生态完整性上的优势。最后,对Data Studio新版本中的Notebook环境进行了初步探索,强调了其在提升开发效率方面的价值。
405 16
|
机器学习/深度学习 数据采集 DataWorks
DataWorks产品评测:数据处理与分析的最佳实践
DataWorks是阿里巴巴推出的大数据开发治理平台,支持从数据采集、预处理、存储到分析的全流程操作。本文评测了其在用户画像分析中的应用,包括数据收集、清洗、特征工程、模型训练、结果评估及应用部署等步骤,展示了其在提高数据资产管理效率、支持多种编程语言和技术栈、集成丰富可视化工具等方面的优势。同时,文章也指出了DataWorks在使用过程中的一些不便与问题,并提出了改进建议。
393 17