备案控制台

开发者社区数据库文章正文

【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-04-DataIDE基本操作（上）

2022-11-11 225

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 RDS MySQL，集群系列 2核4GB

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-04-DataIDE基本操作

一、实验概述

DataWorks（数据工场，原大数据开发套件DataIDE）是阿里云数加重要的PaaS平台产品，提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘和探索。

DataWorks基于MaxCompute作为核心的计算、存储引擎，提供了海量数据的离线加工分析、数据挖掘的能力。

通过DataWorks，可对数据进行传输、转换、集成的操作，从不同的数据存储引入数据，对数据进行转化和开发，最后将数据输送到其他数据系统。

二、实验目的

通过创建项目、同步数据、编写SQL程序、配置调度任务、运维监控等环节，实现完整的数据处理流程。

三、实验场景

模拟Mysql数据库为生产系统，实现从生产系统抽取数据到MaxCompute中，进行数据自动化分析处理。

第 1 章：实验准备

1.1 申请阿里云资源

在弹出的左侧栏中，点击创建资源按钮，开始创建实验资源。

资源创建过程需要1-3分钟。完成实验资源的创建后，用户可以通过实验资源查看实验中所需的资源信息，例如：阿里云账号等。

1.2 资源环境准备

登录云中沙箱，进入实验，点击“实验资源”，查看所需具体资源。

本实验需开通资源为MaxCompute和RDS。

点击“创建资源”，即可进入实验环境。（由于实验环境一旦开始创建则进入计时阶段，建议学员先基本了解实验具体的步骤、目的，真正开始做实验时再进行创建）

创建资源需要几分钟时间，请耐心等候……

说明：

企业别名：即主账号ID；

子用户名称和子用户密码：登录实验环境以及配置MaxCompute 数据源时需要；

AKID和AK Secret：系统为本用户分配的登录验证密钥信息，在配置客户端及数据源时应用；

控制台url：登录实验环境的地址；

1.3 进入实验环境

步骤一：登录管理控制台

资源开通后，点击左侧菜单栏中“控制台url”链接，进入用户登录页面。

输入资源提供的“子用户名称”和“子用户密码”登录。

登陆成功后，进入管理控制台页面：

步骤二：打开“DataWorks”

展开左侧菜单，点击“产品与服务”，在“大数据（数加）”产品列表中，点击“DataWorks”。

步骤三：创建项目

创建项目需要管理员权限，沙箱实验环境默认创建完项目：

步骤四：进入数据开发

选中项目，点击“进入数据开发”，则进入“数据开发”环境。

第 2 章：实验内容

2.2 数据同步

本小节实验目的：实现从MySQL数据源同步数据到MaxCompute中。

在DataWorks中，通常使用数据集成功能，将您的系统中产生的业务数据定期导入到工作区，通过SQL任务的计算后，再将计算结果定期导出到您指定的数据源中，以便进一步展示或运行使用。

2.1.1 新建RDS数据库

1）创建实例

云中沙箱实验环境已创建完成RDS数据库实例。登录管理控制台，在“产品与服务”列表中，选择“云数据库RDS版”。

选择地域，查看实例。（地域选择请查看实验资源中开通的地域。）

点击实例后面的“管理”，进入管理页面。

2）创建数据库

打开左侧菜单栏中的“数据库管理”菜单，点击“创建数据库”。

输入数据库名称，选择字符集，然后点击创建。

点击“刷新”按钮，查看状态。数据库创建成功后，状态显示“运行中”。

3）创建账号

打开左侧菜单栏的“账号管理”，点击“创建账号”，跳转到账号创建页面。

账号类型选择“普通账号”，设置账号密码，并给授权数据库，然后点击确定。

账号创建成功后，用户账号状态显示“激活”。

4）登录数据库

点击页面上方的“登录数据库”按钮，跳转到数据库登录页面。

输入账号密码，点击登录。

登录成功后，默认显示如下页面。即可进行相关数据库操作。

2.1.2 数据上传到RDS

1）新建表

登录RDS库，在顶部“SQL操作”菜单中，打开“SQL窗口”。

创建表t_dml_data，用于模拟存储业务系统的生产数据。

输入SQL建表语句，点击“执行”，成功后刷新左侧列表，窗口可显示刚建的表。

建表语句如下：

create table IF NOT EXISTS t_dml_data ( detail_id bigint, sale_date datetime, province VARCHAR (20), city VARCHAR (20), product_id bigint, cnt bigint, amt double, PRIMARY KEY (detail_id) );

2）上传本地数据

在顶部“数据方案”菜单栏中，选择“导入”。

点击“新增任务”，选择数据文件类型、数据表名称、数据文件等信息，然后点击“开始”，执行数据导入任务。

如下图，导入任务完成后，会显示数据导入详情。

关闭详情，可看到该任务。

点击左侧列表中的刷新按钮，可看到表，右键选择“打开表”，可看到表中的数据信息。

2.1.3 ODPS中添加RDS数据源

打开数据开发页面，点击“DataWorks”图标, 在下拉列表中选择“数据集成”。

点击左侧菜单中的 “数据源”，然后点击右上角的 “新增数据源”，如下图所示

弹出 “新增数据源”对话框，选择关系型数据库MySQL。

在”新增MySQL数据源”弹出框中填写相关配置项；

◆ 数据源名称：自定义

◆ RDS实例ID: 查看实验资源中的“实例”信息

◆ RDS实例主账号ID: 查看实验资源中的“企业别名”信息

◆ 数据库名：前面章节创建的数据库名称

◆ 用户名：登录数据库的用户名

◆ 密码：登录数据库的密码

点击“测试连通性”，数据库连接测试成功后，点击“完成”。如下图所示：

数据源自动添加到数据源列表中。

2.1.4 同步RDS数据到ODPS

1）新建业务流程

打开数据开发页面。展开左侧菜单，点击“数据开发”，然后新建“业务流程”。

弹出“新建业务流程”对话框，输入业务名称

2）新建数据同步节点

在数据集成中点击“离线同步”。

弹出“新建节点”对话框，输入节点名称，点击“提交”。

3）双击节点，进行数据同步设置。

①选择数据源

设置数据来源，选择MySQL库，rds_lab数据源，t_dml_data表。

设置数据去向，选择ODPS库，odps_first数据源，点击一键生成目标表。

填写目标表的分区信息。本示例中，分区为变量${sdate}

一键生成目标表，注意修改SQL语句的表名，然后点击“新建表”。

②字段映射

源表和目标表进行字段映射。选择“同名映射”。

③设置通道控制信息。

④调度配置

在右侧“参数配置”中给变量赋值：sdate=2017，设置调度周期和时间。

在“调度依赖中”，点击“使用工作空间根节点”，点击“保存”。

4）同步数据

设置完成后，“提交”业务流程。

选择要提交的“节点名称”，填写“备注”，然后点击“提交”。

提交成功后，显示如图所示信息：

点击“运行”，执行数据同步任务

当数据同步完成后，节点状态图表变成如下图所示：

文章标签：

ACA认证

数据集成 Data Integration

大数据开发治理平台 DataWorks

云数据库 RDS MySQL 版

云原生大数据计算服务 MaxCompute

分布式计算

SQL

关系型数据库

数据安全/隐私保护

MySQL

RDS

数据库

调度

MaxCompute

DataWorks

关键词：

云原生大数据计算服务 MaxCompute阿里云

阿里云ACA认证

云原生大数据计算服务 MaxCompute工程师

云原生大数据计算服务 MaxCompute认证

ACA认证实验

wyn-365

目录

相关文章

Echo_Wish

|

19天前

|

机器学习/深度学习人工智能分布式计算

我的阿里云社区年度总结报告：Python、人工智能与大数据领域的探索之旅

我的阿里云社区年度总结报告：Python、人工智能与大数据领域的探索之旅

Echo_Wish

97 35 35

阿里云瑶池数据库_

|

2月前

|

存储人工智能数据管理

媒体声音｜专访阿里云数据库周文超博士：AI就绪的智能数据平台设计思路

揭秘阿里云DMS+X一站式Data+AI平台底层构建逻辑

阿里云瑶池数据库_

134 3 3

媒体声音｜专访阿里云数据库周文超博士：AI就绪的智能数据平台设计思路

数据库社区运营小北

|

29天前

|

存储人工智能数据管理

媒体声音｜专访阿里云数据库周文超博士：AI就绪的智能数据平台设计思路

在生成式AI的浪潮中，数据的重要性日益凸显。大模型在实际业务场景的落地过程中，必须有海量数据的支撑：经过训练、推理和分析等一系列复杂的数据处理过程，才能最终产生业务价值。事实上，大模型本身就是数据处理后的产物，以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题，这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。

数据库社区运营小北

206 3 4

打不哭

|

2月前

|

机器学习/深度学习分布式计算数据挖掘

MaxFrame 性能评测：阿里云MaxCompute上的分布式Pandas引擎

MaxFrame是一款兼容Pandas API的分布式数据分析工具，基于MaxCompute平台，极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力，无需学习新编程模型即可处理海量数据。性能测试显示，在涉及`groupby`和`merge`等复杂操作时，MaxFrame相比本地Pandas有显著性能提升，最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题，MaxFrame仍是处理TB级甚至PB级数据的理想选择。

打不哭

55 4 4

不游泳的鱼鱼

|

2月前

|

SQL DataWorks 数据可视化

阿里云DataWorks评测：大数据开发治理平台的卓越表现

阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台，支持多种数据源无缝整合，提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态，确保了数据处理的高效性和安全性。通过实际测试，DataWorks展现了强大的计算能力和稳定性，适用于中小企业快速搭建稳定高效的BI系统。未来，DataWorks将继续优化功能，降低使用门槛，并推出更多灵活的定价方案，助力企业实现数据价值最大化。

不游泳的鱼鱼

98 4 4

郑小健

|

2月前

|

分布式计算大数据数据处理

技术评测：MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口

随着大数据和人工智能技术的发展，数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame（简称“MaxFrame”）是一个专为Python开发者设计的分布式计算框架，它不仅支持Python编程接口，还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评，探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现，并分析其在实际工作中的应用潜力。

郑小健

93 2 3

赵渝强老师

|

3月前

|

存储分布式计算大数据

【赵渝强老师】阿里云大数据生态圈体系

阿里云大数据计算服务MaxCompute（原ODPS）提供大规模数据存储与计算，支持离线批处理。针对实时计算需求，阿里云推出Flink版。此外，阿里云还提供数据存储服务如OSS、Table Store、RDS和DRDS，以及数据分析平台DataWorks、Quick BI和机器学习平台PAI，构建全面的大数据生态系统。

赵渝强老师

105 18 18

游客agwwuoz5eh2sa

|

2月前

|

SQL 存储分布式计算

阿里云 Paimon + MaxCompute 极速体验

Paimon 和 MaxCompute 的对接经历了长期优化，解决了以往性能不足的问题。通过半年紧密合作，双方团队专门提升了 Paimon 在 MaxCompute 上的读写性能。主要改进包括：采用 Arrow 接口减少数据转换开销，内置 Paimon SDK 提升启动速度，实现原生读写能力，减少中间拷贝与转换，显著降低 CPU 开销与延迟。经过双十一实战验证，Paimon 表的读写速度已接近 MaxCompute 内表，远超传统外表。欢迎体验！

游客agwwuoz5eh2sa

170 0 0

数据库小能手

|

3月前

|

人工智能 Cloud Native 数据管理

媒体声音｜重磅升级，阿里云发布首个“Data+AI”驱动的一站式多模数据平台

在2024云栖大会上，阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS：OneMeta+OneOps。该平台由Data+AI驱动，兼容40余种数据源，实现跨云数据库、数据仓库、数据湖的统一数据治理，帮助用户高效提取和分析元数据，提升业务决策效率10倍。DMS已服务超10万企业客户，降低数据管理成本高达90%。

数据库小能手

196 19 19

aliyun4381607004

|

3月前

|

分布式计算 Java 开发工具

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景，随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码，发现使用的`nativeBooster.saveModel`方法不支持OSS路径，而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令，帮助用户顺利迁移模型存储路径。

aliyun4381607004

112 1 1

热门文章

最新文章

媒体声音｜专访阿里云数据库周文超博士：AI就绪的智能数据平台设计思路

大数据& AI 产品月刊【2024年12月】

从数据小白到大数据达人：一步步成为数据分析专家

odps测试表及大量数据构建测试

高科技生命体征探测器、情绪感受器以及传感器背后的大数据平台在健康监测、生命体征检测领域的设想与系统构建

DataWorks年度发布：智能化湖仓一体数据开发与治理平台的演进

Flink 基础详解：大数据处理的强大引擎

MaxCompute Data + AI：构建 Data + AI 的一体化数智融合

我的阿里云社区年度总结报告：Python、人工智能与大数据领域的探索之旅

DataWorks产品评测：大数据开发治理的深度体验

阿里云云计算工程师ACA认证（Alibaba Cloud Certified Associate - Cloud Computing）考试大纲

【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-01-MaxCompute DML操作（下）

【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-01-MaxCompute DML操作（上）

【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-02-MaxCompute客户端配置（上）

【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-02-MaxCompute客户端配置（下）（二）

【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-02-MaxCompute客户端配置（下）（一）

【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-03-MaxCompute内置函数（下）

【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-03-MaxCompute内置函数（上）

【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-04-DataIDE基本操作（下）

【实验】阿里云大数据助理工程师认证（ACA）- ACA认证配套实验-05-安全与权限基本操作（下）

相关课程

更多

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第二阶段）

2020版大数据实战项目之DMP广告系统（第四阶段）

2020版大数据实战项目之DMP广告系统（第七阶段）

相关电子书

更多

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

极氪大数据 Serverless 应用实践

相关实验场景

更多

SAE 极速部署专属 AI 证件照神器

基于OpenSearch向量检索版和MaxCompute快速搭建图搜服务

倚天大数据电商数据分析快速实践

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

使用内置公开数据集快速体验MaxCompute

基于MaxCompute的热门话题分析

下一篇

DataWorks售前咨询