ODPS到ADS数据迁移指南-阿里云开发者社区

ODPS到ADS数据迁移指南

2017-09-18 9436

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。ODPS到数据迁移采用的方式同步数据。 1.ÃÂ ÃÂ ÃÂ ÃÂ 创建源和目标库表结构初次在同步数据前需要在源库和目标库创建好相应的表结构。

数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。ODPS到ＡＤＳ数据迁移采用ＣＤＰ的方式同步数据。

2.Â Â Â Â 配置数据源

2.1源数据源配置－ODPS

1.登录Base管控台，单击顶部菜单栏中的项目管理,并选择相应的项目。

ff4ce004e8a02d4a6779f6fae39d8ac1005636a6

2.进入数据源配置，单击新增数据源。

3f37967934666488b80d036b69194920e808e295

3. 在新建数据源弹出框中，选择数据源类型为ODPS;

2df70c5ad09183cdfa3edbd740fd24e8c709634a

配置项说明（上图中带*的都必须输入相应的信息）：

lÂ 数据源名称：由英文字母、数字、下划线组成且需以字符或下划线开头，长度不超过60个字符。

lÂ 数据源描述：对数据源进行简单描述，不得超过80个字符。

lÂ 数据源类型：当前选择的数据源类型ODPS。

lÂ ODPS Endpoint：默认只读。从系统配置中自动读取。

lÂ ODPS项目名称：与计算引擎配置中的ODPS项目名称相同。

lÂ AccessID/AceessKey：访问密钥 AccessKey（AK）相当于登录密码。

4. 单击测试连通性。

5. 测试连通性通过后，单击确定。

2.2目标数据源配置－ADS

1.登录Base管控台，单击顶部菜单栏中的项目管理,并选择相应的项目。

2bd601fd6a61a9e80d22eebed274ff12032204d6

2. 进入数据源配置，单击新增数据源。

19f6ef2590e1576049b414a709c5168bb3592eb3
3. 在新建数据源弹出框中，选择数据源类型为 ADS，配置ADS数据源的各个信息项。

fd6c81e056857f16865ff294e7f4f86678d41721

配置项说明（上图中带*的都必须输入相应的信息）：

lÂ 数据源名称：由英文字母、数字、下划线组成且需以字符或下划线开头，长度不超过60个字符。

lÂ 数据源描述：对数据源进行简单描述，不得超过80个字符。

lÂ 数据源类型：当前选择的数据源类型ADS。

lÂ 连接Url：ADS连接信息，格式为：serverIP:Port。

lÂ Schema：相应的 ADS Schema 信息。

lÂ AccessID/AceessKey：访问密钥 AccessKey（AK）相当于登录密码。

4. 单击测试连通性。

5. 测试连通性通过后，单击确定。

3. 创建同步任务

1. 新建同步节点，如下图所示：

c42675153198c885aa6b7873178fb60e1756b36a

新建任务配置项说明（带*项都需要输入或选择）：

名称: 起一个好识别的名称,符合命名规则即可;

任务类型为工作流任务可一次性调度或周期调度；节点任务只能是周期调度;

类型:选择数据同步;

选择目录:任务开发中选择您所使用的文件夹中要同步的任务。

2.选择数据来源和目标

5434c7b4e5768a0123cd554bae889767d846a375

其中：数据来源指的是数据源,数据流向指的是目标数据源。

3.字段配置

当源表和目标表结构一致时,默认的源和目标表字段是一一对应的关系，不用做任何设置。如下图所示：

2259b1a1618ec20711b6d28ff6e3a0a08e553c67

4. 数据抽取和加载控制

ÃÂ 数据抽取

全量同步时过滤条件为空；增量同步时可按时间进行数据的抽取。

ÃÂ 加载控制

　加载控制中的导入模式与ADS表更新方式要对应；建议导入规则用覆盖写入。

ADS表更新方式	导入模式	导入规则
批量更新	批量导入	覆盖写入或追加写入
实时更新	实时导入	覆盖写入或追加写入

说明:

导入规则是覆盖写入：目标表中有与源表部分相同的数据，覆盖写入会对相同的数据覆盖写入；

导入规则是追加写入：源表中新增的数据，同步时会同步过去；当是批量导入时目标表与源表有主键相同数据不会导入成功。

　５．流量与出错控制

　作业速率上限是指数据同步作业可能达到的最高速率，其最终实际速率受网络环境、数据库配置等影响。

4.Â Â Â Â 任务调度

新建任务创建好保存后，会产生一个周期调度，默认的时间是每天晚上00:00执行。客户也可根据实际的同步场景进行时间配置。下图所示是默认的配置：

225edf9632c75870cadecdb7d512a25cd29892f9

依赖属性配置：

76c79dcde460ad20cbb6a30213f429f45fabe96f

　依赖属性中可以配置任务的上游依赖，表示即使当前任务的实例已经到定时时间，也必须等待上游任务的实例运行完毕才会触发运行。

如果没有配置上游任务，则当前任务默认由项目本身触发运行，故在调度系统中，该任务的上游默认为 project_start 任务。每一个项目中默认会创建一个 project_start 任务作为根任务。

5.Â Â Â Â 运维及日志排错

5.1测试运行

1.单击工作流页面中的测试运行按钮，如下图所示：

2. 根据跳转页面的提示，单击确认和运行；

3.单击前往运维中心查看任务运行状态和运行日志，如下图所示：

707aae93f43c348ef7757ff2b3e5dfddae0e1adc

说明：

测试运行是手动触发任务执行，任务调度的时间到了，就自动运行，无视实例的上游依赖关系。

若测试运行只需要运行一次，测试运行完成后需要在调度状态前打勾暂停掉此任务。

57b513550b615ae3ee18be431f257649260f6763

5.2周期自动运行

周期自动运行，由系统根据所有任务的任务调度配置自动触发。前往运维中心查看任务运行状态和检查运行日志。

路径：运维中心-〉任务管理-〉任务运维视图下查找对应时间对应任务的运行状态和检查节点运行日志。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

ODPS到ADS数据迁移指南

1.Â Â Â Â 创建源和目标库表结构