7.DataWorks 赋值节点案例演示|学习笔记

简介: 快速学习7.DataWorks赋值节点案例演示

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:7.DataWorks赋值节点案例演示】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1244


7.DataWorks赋值节点案例演示

内容介绍:

一、了解赋值节点

二、演示

一、了解赋值节点

1、使用场景介绍

(1)赋值节点目前支持 ODPS SQL、SHELL 和 Python 三种赋值语言 ,且赋值节点自带 outputs 输出。可以结合节点上下文,将赋值节点的最后一条查询结果作为下游节点的入参进行传递。

(2)常见使用于上游输出,需要将结果传递给下游,作为下游输入变量参数使用。

(3)例如:上游输出一个二维数组的结果集,下游需要根据结果集,去走不同的链路,或者是同步任务中有变量参数需要使用到结果集中的某一个值 ,但在一个同步任务中无法自定义参数变量时,这种就可以通过赋值节点来实现。

2、使用前提

DataWorks 标准版及以上版本,才可以使用赋值节点。.

3、不同语言的outputs参数赋值说明

(1)outputs 参数的取值只取最后一行代码的输出结果 :

  1. 赋值语言为 ODPS SQL 的赋值节点中,最后一行 SELECT 语句的输出。
  2. 赋值语言为 SHELL 的赋值节点中,最后一行 ECHO 语句的数据。
  3. 赋值语言为 Python 的赋值节点中,最后一行 PRINT 语句的输出。都是最后一个语句的查询结果,将其输出,对下游进行使用。

(2)outputs 参数的传递值最大为2 MB。如果赋值语句的输出结果超过该限制,赋值节点会运行失败。

4、注意事项

(1)Python 和 SHELL 的输出会基于逗号(,)分割为一维数组。 ODPS SQL将输出结果作,为一个二维数组传递至下游。

(2)节点依赖关系,及上下文参数必须填写。这种参数是根据依赖关系去取的。

(3)/可作为转义符,用于不需要分割的( , )前。某些场景下结果其中会带有一种逗号,目前底层会将逗号作为一种分割的符号,将数据进行分割,如果有些用户的数据中就带有这种逗号,但是却不需要用逗号进行分割,就需要使用/作为转义符,将逗号机进行转义,下方的两个图中,print输入abc,但是又不想把a和b分隔开,这时使用转义符,右边的图就可以看到,上游第一行的输出就是ab两个结果。

image.png


二、演示

1、首先新建一个业务流程,输入业务流程的名称,点击确认就可以。

image.png

2、节点一般都会以 star 节点作为开始,新建一个star虚拟节点,用来使整个流使整个业务流程从 star 节点开始运行,虚拟节点不需要怎么配置,选择数据生成方式,重跑的属性,调度周期,时间等。上下游父节点依赖,因为它是一个SaaS节点,直接用工作空间根据点作为它的父节点依赖就可以,虚拟节点完成保存。

image.png

3、在通用控制节点中新建一个赋值节点,演赋值节点。3、赋值节点设置完成后,可以选择赋值的语言,可以看到有odpsSQL,shell、python,以odpsSQL为例。

4、查询已有的odps表,SELECT * FROM xhb_ yanshi project.rpt user_ info_ d WHERE dt 20201028 LIMIT 10;先去临时查询中查询这张表的输出结果。运行,查看结果。可以看到输出10行数据

image.png

5、返回到数据开发中,配置父级节点。Sql选完后再进行调度配置,设置生成实例方式,重跑属性,日期,上游父节点就以父极节点的star节点开始,左边添加就可以,赋值节点在下面可以看到,本节点输出参数,赋值节点默认带output参数。所以不用手动再去添加,配置完成之后保存,再配置结果的展示的shell节点。在调度参数中配置一个节点上下文,选择可以重跑,添加赋值节点的名称。下游,本节点上下文,因为它是作为输入参数添加,数据来源可以看到它是从上游父节点,输入一个参数名称,输入完成之后保存,再进行配置。

echo ' 上游赋值节点输出的第一行结果: '${pinputs [0]};

echo ' 上游赋值节点输出的第二行结果: '${inputs [1]};

这里需要说明,就是符号不可以用中文的符号,不然它会取不到。配置完成之后,进行保存。刷新页面。可以看到这就是一个大致的流程结果。

image.png

6、再检查一下,没有问题就将结果提交,检查没有问题,将节点整理提交。

7、提交成功之后,因为是一个标准项目的空间,标准项目再提交,需要进入任务发布界面,将刚刚提交的三个节点进行整体的发布,看发布的一个状态是否真正的成功,可以看到是成功状态。

image.png

8、进入运维中心,在周期任务运维中找到刚刚发布的三个节点,这就是一个整体的在生产环境中展示的一个流程。

image.png

9、因为刚刚选择的生成实例方式,它是t+1生成的,所以要到今天晚上它才会生成一个实例,明天到时间之后才会正常的去一个在周期实例中正常调度,直接补数据进行演示,补数据在周期任务中右键将可以选择当前节点及节点上下游一起补,赋值节点,因为只是一个虚拟的节点,所以它都是一个秒成功的状态,也没有实际的日志。查看赋值节点的情况,赋值节点成功了,现在都已经运行成功。

image.png

10、看实际的日志状态,可以看到 outputresult,它传出10个结果集,这10个结果集应该是和查询结果中是一致的,因为刷新了页面,所以结果集已经看不到了,这种情况就直接在左侧的列表中进行历史中查看就可以。它会将一个运行情况结果检验出来

image.png

11、这个项目是做了一个脱敏的一个项目,所以中心的数据它是在临时查询中是展现不出来的,在日志中可以看到一个比较明显的状

态。把脱敏关了再进行查询,就可以看到清晰的数据,跟运维中都是一样的结果。

image.png

12、再看上游的数据。

上游赋值节点输出的第一行结果: 0016359810821,湖北省,windows_ pc,1,女,30-40岁,巨蟹座, 20201028

上游赋值节点输出的第二行结果; 0016359814159,未知,windows. pc,14,女,30-40岁,巨蟹座,20201028

可以看到输出都是一致的,可以运行,第二天它就会自动的生成一个节点实例,就会自动的跑,不需要去关心它的执行参数,任务失败,它就会给到你一个报警,配置了一个监控,这就是赋值节点大概的一个功能。

13、节点上下文位置需要注意,赋值节点可以不用那么在乎,因为它是自带的一个取值,不需要配置,就是在上游节点配置,忘记配置上下游参数。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
7月前
|
SQL 分布式计算 DataWorks
使用DataWorks PyODPS节点调用XGBoost算法
本文介绍如何在DataWorks中通过PyODPS3节点调用XGBoost算法完成模型训练与测试,并实现周期离线调度。主要内容包括:1) 使用ODPS SQL构建数据集;2) 创建PyODPS3节点进行数据处理与模型训练;3) 构建支持XGBoost的自定义镜像;4) 测试运行并选择对应镜像。适用于需要集成机器学习算法到大数据工作流的用户。
306 24
|
分布式计算 DataWorks 数据处理
"DataWorks高级技巧揭秘:手把手教你如何在PyODPS节点中将模型一键写入OSS,实现数据处理的完美闭环!"
【10月更文挑战第23天】DataWorks是企业级的云数据开发管理平台,支持强大的数据处理和分析功能。通过PyODPS节点,用户可以编写Python代码执行ODPS任务。本文介绍了如何在DataWorks中训练模型并将其保存到OSS的详细步骤和示例代码,包括初始化ODPS和OSS服务、读取数据、训练模型、保存模型到OSS等关键步骤。
699 3
|
SQL 机器学习/深度学习 分布式计算
dataworks节点任务
在DataWorks中,你可以通过拖拽节点以及连线来构建复杂的工作流,这样可以方便地管理多个任务之间的依赖关系。此外,DataWorks还提供了调度功能,使得这些任务可以在设定的时间自动执行。这对于构建自动化、定时的数据处理管道非常有用。
308 5
|
DataWorks 关系型数据库 MySQL
DataWorks产品使用合集之mysql节点如何插入数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
221 1
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之怎么设置在归并节点传递参数
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
SQL DataWorks 关系型数据库
DataWorks操作报错合集之如何处理在DI节点同步到OceanBase数据库时,出现SQLException: Not supported feature or function
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
441 0
|
分布式计算 DataWorks Java
DataWorks操作报错合集之CDH节点上传jar包时遇到报错,该怎么办
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
11月前
|
DataWorks 监控 数据建模
DataWorks产品体验评测
DataWorks产品体验评测
|
11月前
|
分布式计算 DataWorks 搜索推荐
DataWorks 产品评测与最佳实践探索!
DataWorks 是阿里巴巴推出的一站式智能大数据开发治理平台,内置15年实践经验,集成多种大数据与AI服务。本文通过实际使用角度,探讨其优势、潜力及改进建议。评测涵盖用户画像分析、数据治理、功能表现等方面,适合数字化转型企业参考。
277 1
|
12月前
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评