DRDS到ODPS数据迁移指南

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。DRDS到ODPS数据迁移采用CDP的方式同步数据。 开始DRDS到ODPS数据迁移 1.     创建源和目标库表结构 初次在同步数据前需要在源库和目标库创建好相应的表结构。

数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。DRDS到ODPS数据迁移采用CDP的方式同步数据。

开始DRDS到ODPS数据迁移

1. 创建源和目标库表结构

初次在同步数据前需要在源库和目标库创建好相应的表结构。

2.  配置数据源

2.1源数据源配置-DRDS

 
 1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目。

f1809906b4e7675c2e2cca4ef19a655bb600365b

2.进入数据源配置,单击新增数据源。


bde2d0fcf4f93d2de8fd566c851d132aa58a3566
3. 在新建数据源弹出框中,选择数据源类型为DRDS;

565a63c6c4d37b4da4b75cc4ed7c0ba726abf437

配置项说明(上图中带*的都必须输入相应的信息):

l  数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过60个字符。

l  数据源描述:对数据源进行简单描述,不得超过80个字符。

l  数据源类型:当前选择的数据源类型DRDS。

l  jdbcUrl:JDBC连接信息,格式为:jdbc://mysql://serverIP:Port/database。

l  用户名/密码:DRDS库对应的用户名和密码。

4. 单击测试连通性

5. 测试连通性通过后,单击确定

 

2.2目标数据源配置-ODPS


1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目。

308b62f5d0286a636c54b82b0032a47c033ac7f8
2. 进入数据源配置,单击新增数据源

 9770f8da9c1da60a61795ef930465c730466d334

3. 在新建数据源弹出框中,选择数据源类型为 ODPS。

0de746652b8d4b6f70c98952c5e18a066e728460

配置项说明(上图中带*的都必须输入相应的信息):

l  数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过60个字符。

l  数据源描述:对数据源进行简单描述,不得超过80个字符。

l  数据源类型:当前选择的数据源类型ODPS。

l  ODPS Endpoint:默认只读。从系统配置中自动读取。

l  ODPS项目名称与计算引擎配置中的ODPS项目名称相同。

l  AccessID/AceessKey访问密钥 AccessKeyAK 相当于登录密码。

4. 单击测试连通性。

5. 测试连通性通过后,单击确定。

3.创建同步任务

1.   新建数据同步节点,如下图所示:

f6ce9cad3a84c0fc050823e3a9d029e40b3cf678


  新建任务配置项说明(*项都需要输入或选择):

  名称: 起一个好识别的名称,符合命名规则即可;

  任务类型为工作流任务可一次性调度或周期调度,节点任务只能是周期调度;

  类型:选择数据同步;

  选择目录:根据任务开发,选择您所使用的文件夹中要同步的任务。

 

2.     
选择数据来源和目标

0b395783cd7406cf94e46dee2ad4e241255611a3

其中:数据来源指的是数据源,数据流向指的是目标数据源。

3. 字段配置


当源表和目标表结构一致时源和目标表字段默认是一一对应的关系,不用做任何设置。如下图所示:

d9ffa056f53b36c2020701859395cf69e4daffd8

4.抽取控制和加载控制

    抽取控制

  全量迁移数据过滤为空,增量同步时需要增加时间过滤条件。

    加载控制

   清理规则需要根据数据要求配置,默认是写入前清理已有数据。

写入前清理已有数据写入前保留已有数据

 5.流量与出错控制

 作业速率上限是指数据同步作业可能达到的最高速率,其最终实际速率受网络环境、数据库配置等影响。

4.任务调度


   新建任务创建好保存后,会默认产生一个周期调度任务,默认的时间是每天晚上00:00执行。客户也可根据实际的同步场景进行时间调整配置。下图所示是默认的配置:

528a30accf50d22332ea46dcb80d8168a3745cbd

 

默认的依赖属性:


c1681dbf8eb3a6637341552a40f136f6b60c73e5

  

  依赖属性中可以配置任务的上游依赖,表示即使当前任务的实例已经到定时时间,也必须等待上游任务的实例运行完毕才会触发运行。

  如果没有配置上游任务,则当前任务默认由项目本身触发运行,故在调度系统中,该任务的上游默认为 project_start 任务。每一个项目中默认会创建一个 project_start 任务作为根任务。


5.运行及日志排查

5.1测试运行


1.单击工作流页面中的测试运行按钮,如下图所示:

 2. 根据跳转页面的提示,单击确认运行


3.单击前往运维中心查看任务运行状态和运行日志,如下图所示

f5cb37d81b2b9f23fa5d2e7d66ba0f19c41f5cbb

说明:

测试运行是手动触发任务执行,任务调度的时间到了,就自动运行,无视实例的上游依赖关系。

若测试运行只需要运行一次,测试运行完成后需要在调度状态前打勾暂停掉此任务。

 

 

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
目录
相关文章
|
4月前
|
运维 DataWorks 关系型数据库
DataWorks产品使用合集之怎么进行全量数据迁移
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
JSON DataWorks 监控
DataWorks产品使用合集之如何实现数据迁移(从阿里云一个账号迁移到另一个账号)
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
76 1
|
7月前
|
数据采集 DataWorks 数据安全/隐私保护
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
69 2
|
7月前
|
数据采集 DataWorks 数据安全/隐私保护
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
141 0
|
数据采集 DataWorks 数据挖掘
DataWorks可以支持数据迁移的功能
DataWorks可以支持数据迁移的功能
186 1
|
SQL 分布式计算 关系型数据库
PolarDB-X 1.0-用户指南-数据导入导出-数据迁移或同步方案概览
本文汇总了PolarDB-X 1.0支持的数据迁移或同步的方案。
341 0
|
数据采集 新零售 算法
基于DRDS的千万级会员数据迁移方案设计
某集团进行数字化转型,围绕着新零售业务中台能力为核心,数据中台为底座,搭建统一会员中心体系,实现会员的统一管理与打标,精准营销,提升经营效率。 通过对各个域的会员数据进行清洗,并迁移到阿里云DRDS数据库中,从而完成对会员数据的初始化工作。
|
分布式计算 运维 调度
ODPS到ADS数据迁移指南
数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。ODPS到数据迁移采用的方式同步数据。 1.     创建源和目标库表结构 初次在同步数据前需要在源库和目标库创建好相应的表结构。
9397 0
|
分布式计算 专有云 MaxCompute
ODPS到ODPS数据迁移指南
1. 工具选择与方案确定 目前,有两种方式可用于专有云环境下的从MaxCompute到MaxCompute整体数据迁移。 (1)使用DataX工具进行迁移,迁移所需的作业配置文件及运行脚本,可用DataX批量配置工具来生成; .
7095 0
|
分布式计算 关系型数据库 测试技术

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    112
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    109
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    95
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    97
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    111
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    119
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    154
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    88
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    126