MaxCompute+DataWorks最佳实践(二)|学习笔记

简介: 快速学习 MaxCompute+DataWorks最佳实践

开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:MaxCompute+DataWorks 最佳实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/81/detail/1249


MaxCompute+DataWorks 最佳实践(二)

22、配置好之后,这是在配置的过程中,把它提交到开发环境和生产环境里面去,点击提交,把所有的节点都提交,收入输出不一致。

23、可以看到这三个节点会依次显示提交成功,提交成功之后,它们现在就到了发布的环境里面,到了发布环境,可以点击运行,先看一下是不是能够正常的跑成功。如果跑成功之后,就说明已经完成了数据的采集,那接下来就要对采集上来的数据做加工,加工的目的主要是为网站的用户访问的用户进行一个用户画像的分析。数据的加工会在三个层面上进行,第一个是 ods 层的一个加工,第二层是 dw 层的加工,第三层还有一个 rpt 层的加工,可以先看整个的流程,同样的还是去配置三个数据开发的节点,配置好节点之后,还要为数据开发节点去建立三张表格,用来存储的建表语句。先创建数据开发的内容。首先要去开发三个节点,节点叫做ods_log_info_d。

24、还有一个是 dw 层,dw_user_info_all_d。

25、再创建一个 rpt 层,rpt_user_info_d。

26、按顺序把它们的依赖关系配置一下,数据同步之后 ods 依赖数据同步,dw 依赖odps 层,rpt 是依赖于 dw 层,那把基本的数据加工的流程也构建好了。

image.png

27、配置数据加工的节点,加工节点之前,要去建立三张表格,用来存储数据加工的内容。再去新建表,新建表 ods_log_info_d。

28、依然采用 ddl 的建表语句。这张表可以看到表结构,它都自动上传上来,点击提交。

29、再建立 dw 层的表格,dw_user_ Info_all_d。

30、现在利用 dll 模式新建一张表格,提交以后,这张表写好了,再建立一张表格是给 rpt 层,rpt_user_info_d。

image.png

31、复制建表语句,那么这张表也解析出来了,可以看到字段都已经收过来了,提交之后,这三张表格都建立好了,接下来去配置数据加工的机制,双击,写入 SQL 语句。首先是要配置 ods 层的数据加工的节点,在创建之前,因为 ods 层会用到一个自定义的一个函数,那这里面函数怎么调用?线下写好的怎么调用?写好的是在一个jar 包里面,那要把就是 jar 包上传上来。右键新建资源,选择 jar 包的形式,目标包都是直接设定好的,直接搜索 ip2region.jar。

image.png

32、上传之后要提交,随便写备注。资源提交成功了之后,要去新建一个函数,因为资源已经传到开发平台上来了,那要把它解析出来成一个函数,新建一个函数,新建一个函数,给它取名叫 getregion。

33、可以看到注册函数的类型,它的使用说明,直接点击把这些填好的放进来,它说明写好了,责任人是当前账号,描述就是指函数用来做什么的,它主要是用来将数据表里面的 IP 地址转化成地域。这些都配置好之后,要把它点击保存,保存之后再把它提交到开发生产的环境,提交成功。

image.png

34、那 oss 层,对 ods 层用到的资源已经上传好了,进行 ods 层的节点的加工,那么首先配置它的 sql 节点,主要是写的内容也在这,直接复制过来。保存,这个加工节点就配置好了,配置好之后,再去配置 dw 层,第 dw 层依然是采用建表语句,把它复制,双击把 SQL 语句切进来。保存成功之后,再接下来配置 rpt 层的数据加工的内容,应该是 SQL 语句,写加工的逻辑。保存之后,数据加工的内容也已经被它设置好了,可以看到数据采集过程它都已经通过了,说明逻辑整个是通的,右键节点选择运行节点下游,看数据加工层的逻辑是否是正常通顺的。接下来要做的是把整个任务的工作流程将它提配置好之后,将它提交到开发和生产环境。那点击左上角提交框,把整个流程提交,刚刚数据采集的三个节点已经配好了,那这回提交开发的三个节点,已经把它提交了。

35、提交之后要把它发布到流程里面,提交了之后它只是进入了的开发环境,那开发环境的任务它是不会自动调度的,需要把它所有配置的任务提交到生产环境去,生产环境才会去执行的任务的调度。点击页面上的发布的按钮,刚刚提交上来的所有的节点,包括的资源它都提交上来了,将所有的资源都添加到待发步的内容中,代发步列表里面就会显示有8项待发布,把所有的项全部打包发布,一次性交给任务节点都打包发布。

image.png

36、前两步已经跑通了,接下来看第三步。可以看到待发布的列表里面没有了,说明已经都提交好了,看发布包的列表,可以看到刚刚发布的内容,里面是有8项,现在点击的状态是已经成功了,那说明这些节点都已经成功的上传到了生产环境里面,也就是接下来可以去做任务调度的活动了。

37、可以看到业务流程的逻辑顺序也已经都跑通过了,说明创建的内容是没有问题,数据开发的加工的内容就已经完成了,完成之后要去生产环境去运行任务,定期的调度它。那今天可以到运维中心去,因为正常任务调是至少要在明天才会正常跑通,为了快速实现效果,去到运维中心给它做一个补数据的操作。运维中心也是在左侧栏全部产品里面的运维中心,点击,进入运维中心,在周期任务里面找到刚刚提交的任务,选择的虚节点,那从虚节点开始去运行,给它做一个补数据的操作,运行当前补数据到当前节点及下游节点,那就是对所有的节点都去补数据,业务日期就选择前一天就可以,等它运行成功之后,就可以看到一个运行的结果,数据加工以及任务调度的功能已经做好了。

image.png

38、运行成功之后,接下来是做一个数据监控规则的一个配置,数据表里面的数据内容有没有异常情况,dataworks 里面,点击全部产品有一个数据质量的功能,在数据治理里面点击数据质量,那数据质量就可以去配置对某一张表的某一个分区下面的一个数据质量监控规则这么一个配置,进入到数据质量的界面选择规则配置。这里面可以为表配置一个监控规则,可以有两种监控的数据源,一个是离线的 odps 的数据,还可以监控 datahub 实时的数据,本次是一个离线的数据。

39、给生产环境的表进行数据监控的配置,本次配置是为 odswell 这张 p 表来进行配置,点击配置监控规则,首先可以看到它是没有任何配置规则内容的,首先给它添加一个分区,具体的制造规格配置都是在分区下面进行的,可以看到有很多这种分区的说明,本次选择 t-1的形式,如果调度的时间是21号,那计算的结果是到前一天20号。

image.png

40、添加分区之后,它就会在分区下提醒创建规则。点击创建规则,规则是有两种,一种是给内置了三十几种的模板,如果觉得模板还不够用,可以去选择自定义规则,本次选择的是模板规则,添加模板,因为表格的内容给它设置的规则是以表行数和固定值的内容,规则演示,本次给它配置的是表级规则,规则模板是表行数固定值,比较方式是大于0。还有一个规则可以判断强弱,如果是强规则,如果条规则发现有异常,会立马进行阻断,停止的操作,这样是为了防止避免让数据流到下游,可以阻塞当前节点下面的工作的运行,立即停止,如果是配置成弱规则,它只是做到一个报警提醒的工作,但是不会阻塞下游的节点的运行,本次配置一个强规则,配置好之后把它保存。

image.png

41、保存之后就可以看到在分区下面有模板的规则了,可以试跑,提供试保的功能,试跑成功。

42、数据质量监控规则它怎么样正常的运行?运行是要去关联调度到某一个任务节点上面去,这样当节点启动时,这条规则就会同步被执行。有一个关联调度的按钮,可以分期选择搜索需要的,将它关联的基本内容添加。需要关联这条规则的节点已经添加进来了,那当节点运行时,这条规则就会被自动运行,可以看到这已经变成正常的颜色。

image.png

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
6月前
|
存储 分布式计算 DataWorks
从MaxCompute到Milvus:通过DataWorks进行数据同步,实现海量数据高效相似性检索
如果您需要将存储在MaxCompute中的大规模结构化数据导入Milvus,以支持高效的向量检索和相似性分析,可以通过DataWorks的数据集成服务实现无缝同步。本文介绍如何利用DataWorks,快速完成从MaxCompute到Milvus的离线数据同步。
|
11月前
|
分布式计算 DataWorks 搜索推荐
DataWorks 产品评测与最佳实践探索!
DataWorks 是阿里巴巴推出的一站式智能大数据开发治理平台,内置15年实践经验,集成多种大数据与AI服务。本文通过实际使用角度,探讨其优势、潜力及改进建议。评测涵盖用户画像分析、数据治理、功能表现等方面,适合数字化转型企业参考。
277 1
|
12月前
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评
|
12月前
|
数据采集 DataWorks 大数据
开发者评测:DataWorks — 数据处理与分析的最佳实践与体验
阿里云DataWorks是一款集成化的大数据开发治理平台,支持从数据导入、清洗、分析到报告生成的全流程自动化。通过用户画像分析实践,验证了其高效的数据处理能力。DataWorks在电商和广告数据处理中表现出色,提供了强大的任务调度、数据质量监控和团队协作功能。相比其他工具,DataWorks易用性高,与阿里云服务集成紧密,但在API支持和成本优化方面有待提升。总体而言,DataWorks为企业提供了强有力的数据开发和治理支持,尤其适合有阿里云生态需求的团队。
852 17
|
11月前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
494 1
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
分布式计算 DataWorks 搜索推荐
聊聊DataWorks这个大数据开发治理平台
聊聊DataWorks这个大数据开发治理平台
335 2
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
476 0
|
存储 分布式计算 安全
MaxCompute Bloomfilter index 在蚂蚁安全溯源场景大规模点查询的最佳实践
MaxCompute 在11月最新版本中全新上线了 Bloomfilter index 能力,针对大规模数据点查场景,支持更细粒度的数据裁剪,减少查询过程中不必要的数据扫描,从而提高整体的查询效率和性能。