10.DataWorks 迁移助手介绍及实践(二)|学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习10.DataWorks 迁移助手介绍及实践

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:10.DataWorks 迁移助手介绍及实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1236


10.DataWorks 迁移助手介绍及实践(二)

三、实操演示

1、打开 DataWorks 操作界面,可以看到 DataWorks 数据开发的界面,当前的工作空间下面没有任何的对象,没有任何的作业,包括周期作业手动作业都没有,在左侧边找到迁移助手模块,点击进入迁移助手。

image.png

2、可以到它主要分成两块,第一部分就是任务上云,第二部分是 DataWorks 牵引,点击任务上云中的开源引擎导出,可以到迁移助手会提供开源引擎导出的方案选择,可以根据的调度作业所在的引擎类型查看它的导出方案,有 oozie 的导出方案,有 azkaban 的导出方案,如果 oozie 和 azkaban 都不是你的调度系统,那么可以尝试使用标准模板,可以先下载的标准格式模板,根据其的格式要求填补内容。

3、点击开源引擎导入,创建开源引擎的导入任务,新建 oozie 的导入作业,开始选择。文件上传后,点击校验,校验成功后,点击确认。

4、这里就是导入任务的编辑页,现在处在于周期任务的筛选项,可以到周期任务下面没有任何作用,但是手动任务下面可以到展开手动作业,手动任务下面的作业,点击右侧的高级设置。如果工作空间同时绑 otps 引擎和 emr 的引擎,可以选择 hive 类型的节点。由于只选择 odps 没有选择 emr,所以不需要修改它的关系,保存确认。

5、点击开始导入,导入的过程会很漫长,因为需要做预处理,再对不同的作业进行导入操作,可以到导入进度,能够清晰的告诉你当前导入的情况是什么样。数据源导入成功,资源导入成功,周期任务导入成功。

6、将 dataworks 上的开发成果进行备份恢复。可以到它会分成两部分,一部分是 datawork 导出,一部分是 dataworks 导入。

image.png

7、再次查看导入进度。

8、返回导入任务列表,点击查看导入报告,在导入报告里会告诉本次导入哪些作业,导入哪些对象,导入结果是什么样?可以很直观的看到导入结果是什么,导入的周期任务是多少,手动任务是多少,资源是多少,数据源是多少,导入成功多少,点击导入成功,查看有32个作业,包括导入设置,导入的关系是什么,都能看到。

image.png

9、点击查导入任务,在数据开发中查看本次导入的作业有哪些,它是否都已经导入成功。找到手动的业务流程,找到手动任务,双击打开手动业务流程,可以到,导入进来的调度作业,它已经生成好依赖关系。开源调度引擎的任务作业成功。

10、做 dataworks 的迁移,因为可以到导入的作业不多,新建导入任务。可以到这里导入支持两种,一种是本地文件上传,一种是oss文件,选择本地文件,写导入任务的名字,点击上传文件,选择导入包,进行文件上传,上传完成后会进行自动的校验,校验通过后才可以点击确认开始。

image.png11、换到 dataworks 的迁移后,要做的映射关系就更多了。比如可以做工作空间的引擎实例的映射,源空间是 GW workshop demo,目标空间是yunxi demo 0928,还有资源组的映射关系,就是源工作空间是什么?有没有用自定义资源组,目标端的工作空间,自定义资源组的类型,或者它的资源组是哪些?是否需要修改?重要的是它的依赖关系的因素,调度作业之所以厉害,是因为能够配置各种各样复杂的依赖关系,那如果在源端的节点的输出名称,或者在代码里访问的数据表,都已经制定上工作空间。这时如果还沿用老的工作空间,那么在新的工作空间里,或者在目标端的这些作业可能就会运行失败,所以需要进行替换。目前迁移助手能够修改的范围是在任务代码里用的工作空间的名称,会替换掉,在输入输出名称里用工作空间的名称,也会替换掉,这样能够基本上能够将大部分使用的工作空间名称的地方都能够统一进行替换。下面是空跑属性的设置,就是在导入后,可以选择部分作业就进行空跑,最后有一个很非常核心的能力,就是提交规则,作业到底要不要提交,作业导入后,责任人应该是谁?如果选择统一修改,它会让选择工作空间内的成员,如果选择不修改,它默认会找的任务的功能,在目标的空间或者在新的工作空间里是否存在,如果不存在,它还是会修改为它的作业导入人。

12、这些都设置完,点击开始导入,导入时会进行确认,导入操作会使工作空间产生不可逆的修改,请确认是否开始导入,点击确认

image.png

13、进入到进度条,开始查看整体的导入进度,开始导出,已经通过开源引擎导入的方式,任务上云的方式已经导入一批作业,这时可以尝试。新建导入的过程中,它会有三个选项,导出类型会有三种方式,一种是全量导出,一种是增量导出,还有一种自选导出,全量导出最省事,整个工作会所有的东西全部导出来,同时可以对名单的任务做评价黑名单的操作,导出能够支持格式,比如公共云的格式,专有云格式,还有标准格式,选择自选导出,新建名字,版本选择公共云版本即可。

14、开始选择导出内容。可以到这是是周期任务,它的导出环境是生产,查看开发环境有没有周期任务。可以到刚刚导入作业已经完成。

15、查看手动作业,开发环境,选择导出的对象,或者直接选择这些任务导出,切换成开发,全选,把结果添加至导出包,这时可以查看导出包的对象有哪些。

image.png

16、点击开始导出,进入到导出进度的页面。返回导出任务列表,查查看导入的作业的情况,点击查看导入报告,导入6个周期任务,2个数据源,没有手动任务,5个表元ddl的语句,还有1个资源,1个函数,还可以到导入设置的一些关系,比较全面。

image.png

17查看导入任务,查看它是否真的导入进去,手动业务流程,点击数据开发,进入到数据开发里, 6个作业任务,因为导入没有提交作业,作业如果要在生产上运行,还需要有提交的操作,可以点击业务流程的批量提交,提交作业,开始提交。提交成功后,可以在运维中心里查看到这些作业,也就是它们正式进入到生产环节,提交成功。

18、进行发布。6个节点是刚刚提交上来的,一个资源,一个函数也是通过迁移助手导入提交上来的,点击添加到待发布,或者直接发布选择项,点击发布。

19查看发布包列表,这是点击的发布的内容。

image.png

20、在运维中心查看发布上来的作业,周期任务里能够到发布上来的6个作业,到这步,导入工作就完成了,再查看导出,导出是否导出成功?点击查看导出报告,有没有节点导出失败。这6个周期任务都已经导出成功。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
6月前
|
SQL 运维 DataWorks
Flink CDC在阿里云DataWorks数据集成应用实践
本文整理自阿里云 DataWorks 数据集成团队的高级技术专家 王明亚(云时)老师在 Flink Forward Asia 2023 中数据集成专场的分享。
1412 2
Flink CDC在阿里云DataWorks数据集成应用实践
|
SQL 数据采集 分布式计算
基于DataWorks+MaxCompute的公共电影票房数据预处理实践
本次实验对春节档每日票房的数据进行预处理,主要是数据清洗(例如空值过滤,条件筛选),数据转换(例如含有相同属性的两条数据合并为一条数据)。通过本次实验让大家掌握阿里云大数据产品DataWorks及MaxCompute的基本使用。
|
SQL 存储 分布式计算
基于MaxCompute+DataWorks离线同步某电商用户购买记录实践
本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。
|
SQL 分布式计算 DataWorks
基于DataWorks的企业订单数据上云实现数据可视化实践
基于DataWorks的企业订单数据上云实现数据可视化实践
|
SQL 分布式计算 DataWorks
基于DataWorks+MaxCompute的企业本地数据上云实践
基于DataWorks+MaxCompute的企业本地数据上云实践
|
存储 数据采集 DataWorks
2万字揭秘阿里巴巴数据治理平台DataWorks建设实践
阿里巴巴一直将数据作为自己的核心资产与能力之一,从最早的淘宝、天猫等电商业务,到后续的优酷、高德、菜鸟等板块,DataWorks、MaxCompute、Hologres等产品用一套技术体系来支持不同业务的发展与创新,为企业带来整体的“数据繁荣”。 数据繁荣为我们带来了红利,同时也带动了各类数据治理需求的井喷,特别是降本等需求的不断出现,阿里云DataWorks团队将13年的产品建设经验整理成最佳实践,从数据生产规范性治理、数据生产稳定性治理、数据生产质量治理、数据应用提效治理、数据安全管控治理、数据成本治理、数据治理组织架构及文化建设等7个方面为大家揭秘数据治理平台建设实践
27816 11
2万字揭秘阿里巴巴数据治理平台DataWorks建设实践
|
SQL 存储 自然语言处理
阿里云 DataWorks 智能数据建模(二)| 学习笔记
快速学习阿里云 DataWorks 智能数据建模
阿里云 DataWorks 智能数据建模(二)| 学习笔记
|
机器学习/深度学习 数据采集 人工智能
如何将 Studio 模型部署到 EAS 和 Dataworks 调度的任务|学习笔记
快速学习如何将 Studio 模型部署到 EAS 和 Dataworks 调度的任务。
204 0
如何将 Studio 模型部署到 EAS 和 Dataworks 调度的任务|学习笔记
|
存储 数据采集 运维
DataWorks 数据治理介绍和实践 | 学习笔记
快速学习 DataWorks 数据治理介绍和实践,介绍了 DataWorks 数据治理介绍和实践系统机制, 以及在实际应用过程中如何使用。
DataWorks 数据治理介绍和实践 | 学习笔记
|
数据采集 SQL 存储
DataWorks 数据质量介绍及实践 | 学习笔记
快速学习 DataWorks 数据质量介绍及实践,介绍了 DataWorks 数据质量介绍及实践系统机制, 以及在实际应用过程中如何使用。
DataWorks 数据质量介绍及实践 | 学习笔记

热门文章

最新文章