10.DataWorks 迁移助手介绍及实践(一)|学习笔记

简介: 快速学习10.DataWorks 迁移助手介绍及实践

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:10.DataWorks 迁移助手介绍及实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1236


10.DataWorks 迁移助手介绍及实践(一)

内容介绍:

一、产品介绍

二、使用场景

三、实操演示

一、产品介绍

迁移助手是 DataWorks 的全新模块,迁移助手两大核心能力:任务上云、DataWorks 迁移。开源调度引擎任务上云主要是帮助导出开源调度引擎的任务。DataWorks 是自选操作对象的自选导出对象的操作。业下面给介绍这两大核心的能力。

1、任务上云

任务上云将本地自建的开源调度引擎的作业快速上云主要支持的上云是 oozie,azkaban,开源调度引擎任务(Sqoop、 Shell、 Hive)。

image.png

并且能够做到将这些节点转化成 DataWorks 上 maxcompute 的任务,或者是 emr任务。比如有一个hive作业,它导入到 DataWorks ,可以选择将 hive 作业转化为odps sql作业,或者是转化为emr的hive左右。这样能够根据在 DataWorks 上的计算引擎的选型,快速的匹配作业类型。

2、DataWorks 迁移

用于跨租户、跨 Region、跨云、跨版本迁移 DataWorks 上的开发成果。

(1)支持的对象类型

  1. 周期任务
  2. 手动任务
  3. 资源文件
  4. UDF函数
  5. SQL组件
  6. 临时查询
  7. 数据源
  8. 表元数据(DDL)

当这8个对象全部导出,作业就能够在新的环境里快速的运行起来,因为它依赖的这些组件基本上都存在。

(2)导出方式

  1. 全量导出
  2. 增量导出
  3. 自选导出

会遇到很多需要做自选备份,通过备份回复的能力无法满足的需求,像迁移助手能感受到在整个迁移或者备份恢复过程中的诉求,所以对牵引操作做全新的产品设计诞生出的模块。

(3)高级功能

  1. 支持设置导出黑名单
  2. 支持资源组映射
  3. 支持依赖关系映射
  4. 支持工作空间映射
  5. 支持生成迁移报告

比如要能够支持用户设置导出的黑名单,保护敏感的任务,支持用户设置资源组利害关系和工作空间的映射减少导入到新工作空间后的作业修改,并且会支持产出一份详细的迁移报告,快速的了解整个迁移过程中发生什么,有哪些任务导出成功,有哪些任务导出失败,失败的原因是什么?

(4)可迁移的版本

  1. 公共云
  2. 专有云V3.12以上
  3. 专有云V3.6.1- V3.11

迁移的过程中还会兼容历史的版本,历史版本主要是在专用云上,公共云上大部分都会使用的公共云的最新的版本,所以它不涉及。

*自选导出:允许用户指定具体导出对象,而非将整个工作空间导出

二、使用场景

1、任务上云

Oozie&Azkaban 调度任务快速上云。

Oozie 任务上云,支持 Sqoop、Shell、 Hive 等任务快速导入至 DataWorks中,可转换为MaxCompute & EMR类型节点。

Azkaban 任务上云,支持 Sqoop、Shell、 Hive 等任务快速导入至 DataWorks中,可转换为 MaxCompute & EMR 类型节点。

2、跨 Region 迁移

跨 Region 迁移, DataWorks 开发成果跨 Region 迁移。

image.png

能够将上海 region 的开发成果迁移到其他的 region。收到过很多用户的需求,最开始用 dataworks ,他只有上海 region 没有别的 region,但是的服务器有在北京 region,有在杭州 region,现在想要把大数据平台也迁移到和服务器相同的region 上,应该怎么办?情景,想要把 dataworks 整体都从这个 region 进搬到另一个 region,这个场景下用迁移助手也不能完全满足需求,因为整体的迁移涉及到的风险和细节点都非常的多,比如像 region 的数据要不要迁移,整个 region 这些任务怎么迁,整个 region 上已经运行的任务实例怎么迁,还有已经配置,像数据源已经添加白名单,像已经添加的成员和权限的管控,怎么迁过?整个跨 region 的前一涉及到的细节点非常多,如果一定要做跨越 region 的整体的搬迁,可以在搬迁前,通过工单或者其他的方式与我们联系,评估整体搬迁的风险。如果只是想要把部分的业务迁移到其他的 region,不涉及到太多复杂的对象,或者不涉及到整体的搬迁,那么可以尽情的使用迁移助手做出尝试。

3、测试环境快速搭建

4跨云发布

受监管要求,金融行业必须采用开发、生产物理隔离的架构;两套环境,套开发、套生产。日常数据开发在开发环境进行,所有任务均通过迁移助手"发布”至生产环境。

主要难题:

跨云发布可以理解成是金融行业的通用需求,是因为银行合作金融行业受监管的要求,它的开发和生产环境必须要隔离,因为做开发生产必须要做物理隔离,最终会有两套环境,一套开发环境,一套生产环境,日常的这些数据开发都会在开发环境进行,开发环境往生产环境发布过程就需要使用迁移助手完成。为什么开发到生产的发布一定要使用迁移助手完成?这里有三个问题,

物理隔离,系统间无法通信

任务发布时间窗口小,无法手动创建任务

需对发布包进行版本管理,所以也无法通过手动的方式进行创建任务,手动迁移等等。

(2)解决方案:

开发人员通过迁移助手导出待发布任务,导入生产环境。

迁移完成后查看迁移报告,进行版本管理

5、灾备

6、开发成果快速复制

支持 DataWorks 的生态合作伙伴只需要开发一次代码,就可以快速将开发成果复制给客户。

主要难题:

(1)客户 DataWorks 版本不一致。,数据版本之间会有兼容性的问题,所以需要有一套工具解决数据兼容性问题,让任务代码能够快速的在不同的版本在不同的环境中快速进行复制。

(2)研发中心并行开发多套代码,需支持灵活的选择迁移对象。作为专业的数据开发的厂商,可能同时会面临非常多的客户,这时研发中心会同时的开发多套人物代码,灵活的给客户做交付,必须要能够灵活的选择需要迁移的任务对象。所以对迁移助手还会有要求,或者对迁移工具有要求,就是能够支持灵活的选择要迁移的对象。

image.png

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
23天前
|
存储 SQL 分布式计算
手把手教你搞定大数据上云:数据迁移的全流程解析
本文深入探讨了企业数据迁移的核心价值与复杂挑战,重点分析了离线大数据平台在物理传输、系统耦合与数据校验三方面的难题。文章系统阐述了存储格式、表格式、计算引擎等关键技术原理,并结合LHM等工具介绍了自动化迁移的实践演进,展望了未来智能化、闭环化的数据流动方向。
401 14
手把手教你搞定大数据上云:数据迁移的全流程解析
|
前端开发 Java 程序员
Spring Boot+Netty+Websocket实现后台向前端推送信息
学过 Netty 的都知道,Netty 对 NIO 进行了很好的封装,简单的 API,庞大的开源社区。深受广大程序员喜爱。基于此本文分享一下基础的 netty 使用。实战制作一个 Netty + websocket 的消息推送小栗子。
|
9月前
|
弹性计算 运维 安全
课时1:第1天:云服务器ECS是什么
云服务器ECS是阿里云提供的弹性计算服务,支持快速构建稳定、安全的应用。其核心特点包括:1. 简单高效、弹性伸缩;2. 作为应用的基础运行环境;3. 提供纵向和横向扩展能力;4. 拥有高稳定性(99.95%)、数据安全性(99.99%)及自动宕机迁移等优势;5. 免费提供DDoS防护等安全措施,降低运维成本,提升业务连续性。
264 0
|
消息中间件 JSON 大数据
大数据-65 Kafka 高级特性 分区 Broker自动再平衡 ISR 副本 宕机恢复再重平衡 实测
大数据-65 Kafka 高级特性 分区 Broker自动再平衡 ISR 副本 宕机恢复再重平衡 实测
309 4
|
分布式计算 大数据 MaxCompute
MaxCompute产品使用合集之使用pyodps读取OSS(阿里云对象存储)中的文件的步骤是什么
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
JavaScript 关系型数据库 数据库
PostgreSQL支持哪些编程语言?
【8月更文挑战第5天】PostgreSQL支持哪些编程语言?
682 8
|
Java 关系型数据库 MySQL
【Java】已解决com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException异常
【Java】已解决com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException异常
1120 0
|
存储 分布式计算 数据处理
面向业务增长的数据平台构建策略
【8月更文第13天】为了构建一个能够支持企业业务增长的数据平台,我们需要考虑几个关键的方面:数据的收集与整合(数据集成)、存储、处理和分析。本文将详细介绍这些步骤,并提供具体的代码示例来帮助理解。
377 1
|
SQL 关系型数据库 MySQL
关系型数据库mysql跨平台兼容性
【6月更文挑战第13天】
772 4
|
分布式计算 MaxCompute 开发工具
在MaxCompute中,使用`CREATE TEMPORARY TABLE`语句创建的临时表
【2月更文挑战第18天】在MaxCompute中,使用`CREATE TEMPORARY TABLE`语句创建的临时表
724 3