【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-04-DataIDE基本操作(下)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-04-DataIDE基本操作(下)

5)查看同步结果


展开左侧菜单,点击“公共表”,搜索表名,点击“数据预览”可预览表的数据。

20200711131211409.png

2.3 新建ODPS SQL


本小节目的是创建目标表t_dml_result,用于存储数据分析后产生的结果。

进入数据开发页面,点击“临时查询”,右键新建节点ODPS SQL;

20200711131238274.png

输入节点名称,点击“提交”。

20200711131257239.png


双击节点,输入建表语句,点击“运行”。

20200711131316167.png


建表语句如下:


create table IF NOT EXISTS t_dml_result ( province string, product_id bigint, cnt bigint ) partitioned by (sale_date string);

创建表成功后,展开左侧菜单,点击“公共表”,搜索表名,查看表信息:

20200711131333413.png

2.4 新建业务流程


1)新建业务流程

进入数据开发页面,展开左侧菜单,点击“数据开发”,选择“新建业务流程”;


20200711131403949.png


输入业务名称,如图所示:

20200711131420358.png


2) 新建虚拟节点

打开业务流程,在“通用”中点击“虚拟节点”,输入节点名后点击“提交”。


20200711131437116.png

3) 新建数据节点


在“MaxCompute”中,点击“ODPS SQL”,输入节点名称后点击“提交”。

20200711131455778.png

2020071113151059.png

4) 编辑数据节点


双击数据节点,编辑SQL语句, 点击“保存”。

20200711131530452.png

本SQL实现按省份和产品维度,对每天的销售量进行汇总。代码如下:

INSERT OVERWRITE TABLE t_dml_result PARTITION(sale_date) SELECT province ,product_id ,SUM(cnt) AS cnt ,’s d a t e ′ a s s a l e d a t e F R O M t d m l d a t a W H E R E d s = ′ 201 7 ′ A N D S U B S T R ( s a l e d a t e , 1 , 10 ) = ′ {sdate}'as sale_date FROM t_dml_data WHERE ds = '2017' AND SUBSTR(sale_date,1,10) = 'sdate 
 assale 
d
 ateFROMt 
d
 ml 
d
 ataWHEREds= 
 2017 
 ANDSUBSTR(sale 
d
 ate,1,10)= 
 {sdate}’ GROUP BY product_id ,province;


打开右侧“调度配置”,点击参数配置,设置参数:sdate=$[yyyy-mm-dd-1],点击“保存”。

20200711131549144.png


5) 设置依赖关系


双击虚拟节点,展开右侧的“调度配置”,在“调度依赖”中选择依赖的上游节点,本示例中点击“使用工作空间根节点”。

20200711131607873.png

节点间通过拖拽连线形成上下游依赖关系。

20200711131624369.png


6)设置调度属性


双击数据节点,点击右侧“调度配置”,设置“时间属性”。此处可以配置调度的生效日期,调度周期,运行时间,是否依赖上一周期等,然后点击“保存”。

20200711131642272.png


本示例的任务是对每天的销售量进行汇总,故而设置成调度每天运行一次。

在跨周期依赖中,可以设置自依赖。本示例选择“不依赖上一周期”,即无论上一周期任务是否完成,本周期都会正常运行。


7) 提交业务流程


设置完成后,点击“提交”业务流程。

20200711131659896.png

弹出提交选项卡,选择需要提交的节点,输入备注信息,然后点击“提交”。

20200711131719356.png

8) 测试业务流程


点击“运行”业务流程,如果有报错,需要对代码进行调试。


2020071113174240.png

运行成功后如图所示:右键单击节点,可查看节点运行日志。

20200711131806363.png

运行日志如图所示:

20200711131823644.png

2.5 任务运维


2.4.1 打开运维中心


运维中心是对任务和实例展示/操作的地方。有两种方式可进入运维中心。

方式一:在数据开发页面,点击上方的“前往运维”按钮进入运维中心。

20200711131855140.png

方式二:点击左上角的“DataWorks”图标,在下拉列表中选择“运维中心”。

20200711131912834.png

运维中心包括运维大屏、任务列表、任务运维和智能监控四大模块。

20200711131929989.png

2.4.2 任务列表


任务列表分周期任务和手动任务。


周期任务:调度系统按照调度配置自动定时执行的任务。


手动任务:新建任务时,调度类型选择手动任务后,提交到调度系统的任务。


选择左侧菜单栏中的“周期任务”,查看已提交的周期任务。选中任务,点击鼠标右键,可执行相应操作。


如下图所示,展开子节点


20200711131948216.png



点击“查看更多详情”,即可弹出任务属性、运行日志、操作日志、代码等。

2020071113200842.png


详情说明:


属性:此节点的属性介绍,包括调度类型、状态、时间等信息。

运行日志:此节点在运行后或运行中的日志信息。

操作日志:对节点的操作日志,包括节点变更、补数据等操作的记录。

代码:节点编辑的代码。

20200711132026473.png


选择“补数据”,即可对当前节点补历史数据,可选择包含本节点、包含本节点和下游节点。


20200711132045792.png


注意:源表t_dml_data中数据时间为2015年5月,此处的业务日期请选择该时间段方可运行出结果。如图所示,设置业务日期为2015-05-01至2015-05-03.然后点击“确定”,则会按天生成3个实例。

20200711132103669.png

2020071113211699.png


说明:实例越多,消耗资源越多,花费时间越长,建议实验中此处周期选择短一点。在实际生产环境中,依项目具体情况而定。


2.4.3 任务运维

补数据实例创建成功后,在“任务运维”列表下的“补数据实例”中可查看。


补数据实例是对周期任务进行补数据时产生的实例,可对补数据任务实例进行运维管理,如查看运行状态,对任务实例进行终止、重跑、解冻等操作。


20200711132133980.png


任务正在运行时,点击刷新按钮可刷新任务运行状态。直到所有实例都运行成功。

实例状态说明:运行成功image.png 、未运行image.png 、运行失败image.png 、正在运行image.png 、等待image.png 、冻结image.png


20200711132151798.png


任意点击某个实例,右侧显示节点信息。

右键单击节点,可查看更多操作。


操作说明:


展开父节点/子节点:当一个工作流有3个节点及以上时,运维中心展示任务时会自动隐藏节点,用户可通过展开父子层级,来看到更多的节点依赖关系,层级越大,展示越全面。


查看运行日志:进入运维日志界面,可以在运维日志中看到logview等信息。


查看代码:查看当前节点的代码。


编辑节点:单击后可进入节点编辑页面,对节点内容进行修改。


查看血缘:查看此节点的血缘关系图。


终止运行:如果实例在运行中,可单击终止运行,停止任务,只对本次实例有效。


重跑:重新调度此实例。


重跑下游:当前节点的下游重跑实例,如果存在多个下游实例,将会全部重跑。


置成功:将当前节点状态改为成功。


暂停(冻结):将当前节点置为暂停(冻结)状态,并停止调度。当节点状态为暂停时,在节点名称后会出现 图标。


恢复(解冻): 将暂停(冻结)的节点恢复调度。

20200711132215589.png


如图所示,点击“查看运行日志”:

20200711132231249.png


2.4.4 智能监控


智能监控是DataWorks(数据工场)任务运行的监控及分析系统。根据监控规则和任务运行情况,智能监控决策是否报警、何时报警、如何报警以及给谁报警。

下面将演示如何在规则管理页面自定义报警规则。

1) 单击“规则管理”页面右侧的“新建自定义规则”。

20200711132250381.png


2) 在新建自定义规则弹窗内,输入规则名称、规则对象、触发方式、报警行为等参数,并单击确认生成规则。


各配置项说明如下:


对象类型:控制监控的粒度,可以选择以基线、项目或任务节点作为监控对象。


触发条件:可设置为完成、未完成、出错或超时。


最小报警间隔:两次报警之间的时间间隔。


最大报警次数:报警的最大次数,超过这个次数后无论监控对象状态如何,都不再产生报警。


接收人:报警的对象,可设置为责任人、值班表或其他接收人。


免打扰时间:在该时间段内不会发送报警

2020071113231190.png


3)完成上述设置后,单击规则管理页面,点击详情可查看规则的具体内容

20200711132330262.png

触发条件说明:


出错:任务一旦出错,则报警给设置的报警对象。同时推送详细的任务出错信息。


完成:一旦设置的对象上所有的任务完成,则会发送报警。


未完成:例如设置某条基线在10:00完成,则10点只要基线上有一个任务没有完成,则会发送报警,同时推送没有完成的任务列表给您。


超时:一旦设置的对象上有被监控的任务在指定时间内未完成,则会发送报警。


4)查询报警信息


点击左侧菜单列表的“报警信息”,通过规则ID/名称或报警时间、接收人,可搜索查询到具体的报警信息。

20200711132348569.png


2.6 数据管理


数据管理模块可进行组织内全局数据视图的查看、分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等操作。

点击左上方图标DataWorks,切换到 数据管理页面。

20200711132411708.png


数据表管理模块对数据表进行分类,并为各分类提供不同的表信息以及表操作管理功能,以便管理自己的数据表。


如下图所示,点击“我管理的表”,即可查看实验中生成的表。


20200711132433791.png


在数据表管理中,可对表进行生命周期设置、表管理(包括修改表的类目、描述、字段、分区等)、表隐藏/取消隐藏和表删除等操作。

如下图所示,查看表的字段信息:

20200711132451874.png


如下图所示,查看表的分区信息:

20200711132508493.png


如下图所示,预览表中数据:


第 3 章:思考与讨论


3.1 思考与讨论


在实际场景中,作为生产系统,数据是源源不断产生的。


那么在本实验中,要把新产生的数据从RDS同步到ODPS进行大数据处理,需如何改进呢?


参考答案如下:


1、“IDE同步”业务流程配置调度信息;


2、源表数据抽取时,根据时间设置“数据过滤”条件;


3、目标表的分区,由常量改为变量;


4、“IDE开发”中where条件加分区,避免全表扫描。


4.1 课后任务


1、创建一个按天调度的同步任务;

2、将ODPS中生成的结果表同步到RDS中。

目录
相关文章
|
13天前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。
|
16天前
|
机器学习/深度学习 数据可视化 大数据
阿里云大数据的应用示例
阿里云大数据应用平台为企业提供高效数据处理与业务洞察工具,涵盖Quick BI、DataV及PAI等核心产品。DT203课程通过实践教学,帮助学员掌握数据可视化、报表设计及机器学习分析技能,提升数据驱动决策能力。Quick BI简化复杂数据分析,DataV打造震撼可视化大屏,PAI支持全面的数据挖掘与算法应用。课程面向CSP、ISV及数据工程师等专业人士,为期两天,结合面授与实验,助力企业加速数字化转型。完成课程后,学员将熟练使用阿里云工具进行数据处理与分析。[了解更多](https://edu.aliyun.com/training/DT203)
|
25天前
|
存储 分布式计算 大数据
大数据革新在即,阿里云EMR如何布局DeltaLake引领行业潮流?
【8月更文挑战第26天】大数据时代,实时处理与分析能力对企业至关重要。Delta Lake 作为高性能、可靠且支持 ACID 事务的开源存储层,已成为业界焦点。阿里云 EMR 深度布局 Delta Lake,计划深化集成、强化数据安全、优化实时性能,并加强生态建设与社区贡献。通过与 Spark 的无缝对接及持续的技术创新,阿里云 EMR 致力于提供更高效、安全的数据湖解决方案,引领大数据处理领域的发展新方向。
29 3
|
25天前
|
存储 分布式计算 监控
揭秘阿里云EMR:如何巧妙降低你的数据湖成本,让大数据不再昂贵?
【8月更文挑战第26天】阿里云EMR是一种高效的大数据处理服务,助力企业优化数据湖的成本效益。它提供弹性计算资源,支持根据需求调整规模;兼容并优化了Hadoop、Spark等开源工具,提升性能同时降低资源消耗。借助DataWorks及Data Lake Formation等工具,EMR简化了数据湖构建与管理流程,实现了数据的统一化治理。此外,EMR还支持OSS、Table Store等多种存储选项,并配备监控优化工具,确保数据处理流程高效稳定。通过这些措施,EMR帮助企业显著降低了数据处理和存储成本。
31 3
|
25天前
|
存储 分布式计算 大数据
阿里云 EMR 强势助力,与阿里云大数据体系共创辉煌,把握时代热点,开启生态建设之旅
【8月更文挑战第26天】阿里云EMR(Elastic MapReduce)是一种大数据处理服务,与阿里云的多个服务紧密结合,共同构建了完善的大数据生态系统。EMR与对象存储服务(OSS)集成,利用OSS提供可靠、低成本且可扩展的数据存储;与MaxCompute集成,实现深度数据分析和挖掘;还支持数据湖构建服务,加速数据湖的搭建并简化数据管理与分析过程。EMR提供多种编程接口及工具,如Hive、Spark和Flink等,帮助用户高效完成大数据处理任务。
28 2
|
27天前
|
存储 人工智能 搜索推荐
飞天大数据平台产品问题之阿里云OpenSearch的定义如何解决
飞天大数据平台产品问题之阿里云OpenSearch的定义如何解决
|
1月前
|
存储 人工智能 分布式计算
阿里云智能大数据演进
本文根据7月24日飞天发布时刻产品发布会、7月5日DataFunCon2024·北京站:大数据·大模型.双核时代实录整理而成
|
20天前
|
机器学习/深度学习 分布式计算 BI
MaxCompute 与阿里云其他服务的协同工作
【8月更文第31天】在当今的数据驱动时代,企业需要处理和分析海量数据以获得有价值的洞察。阿里云提供了一系列的服务来满足不同层次的需求,从数据存储到高级分析。MaxCompute(原名 ODPS)作为阿里云的大规模数据处理平台,提供了强大的计算能力和丰富的功能,可以与阿里云的其他服务无缝集成,形成完整的大数据解决方案。本文将探讨 MaxCompute 如何与其他阿里云服务协同工作,包括存储服务 OSS、数据分析服务 Quick BI 以及机器学习平台 PAI。
19 0
|
1月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
214 3
|
2月前
|
分布式计算 安全 大数据
HAS插件式Kerberos认证框架:构建安全可靠的大数据生态系统
在教育和科研领域,研究人员需要共享大量数据以促进合作。HAS框架可以提供一个安全的数据共享平台,确保数据的安全性和合规性。

热门文章

最新文章