DataWorks百问百答63:DataWorks如何进行离线数据质量监控?

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: DataWorks如何进行离线数据质量监控

前言

 日常工作中,每时每刻都在产生大量重要的数据,数据质量问题也随之而来。如何用最少的人力、最快的速度,自动完成数据质量校验,对于企业节省成本、上层决策应用等起到关键作用。DataWorks的数据质量模块,为您提供全链路的数据质量方案,让数据监控更加简单、高效。
   数据质量最基本、也最关键的功能,就是配置监控规则。目前,数据质量支持MaxCompute和EMR两种离线数据源,以及DataHub实时数据源。未来,会陆续支持更多种类的引擎/数据源。本期首先为您介绍离线数据源的监控规则配置方法。

如何配置离线数据的监控规则

1. 选择“引擎/数据源”-->"引擎/数据源实例"-->需要监控的表,点击配置监控规则。

2. 创建分区表达式,目的是定位最新数据,避免全表扫描。系统自带分区表达式的含义如下:

$[yyyymmdd] 调度日期
$[yyyymmdd-1] 业务日期
$[yyyymmdd-N] 前N天
$[yyyymm01-1] 每月1日
$[yyyymm01-Nm] N月前1日
$[yyyymmld-1] 每月最后一天
$[yyyymmld-Nm] N月前最后一天
$[yyyymmddhh24miss] 调度时间
$[hh24miss-1/24] 一个小时前
$[hh24miss-30/24/60] 半个小时前

若为非分区表,则表达式如下:
NOTAPARTITIONTABLE

3. 选择某一分区表达式,点击“创建规则”蓝色按钮,出现创建监控规则的右侧拉窗。监控规则分为模板规则和自定义规则两种。

(1)模板规则:数据质量支持43种表级和字段级的内置模板以及9种动态阈值模板,同时还支持用户自建的规则模板库。
注:动态阈值和规则模板库,在后续的高级功能中会为大家详细介绍,敬请期待。本期模板规则是在动态阈值选择“否”的前提下进行演示。
dataworks63-8.png

填写说明如下:

规则名称 填写规则名称
强弱 强规则阻塞下游,弱规则仅报警
动态阈值 是否使用动态阈值,进行智能判断
规则来源 选择使用43种内置模版或自建的规则模板库
规则字段 选择表级或字段级规则。
规则模版 选择具体的规则模板。规则模板会根据规则字段的不同而变化
比较方式 波动率型模板:绝对值、上升、下降
固定值型模板:大于、大于等于、等于、不等于、小于等于、小于
校验阈值 波动率型模板:橙色阈值、红色阈值
固定值模板:期望值

注:强弱规则的橙色报警均不会阻塞下游,必须小于红色阀值,精确到百分比小数点后两位。强规则的红色报警会触发阻塞,必须大于橙色阀值,精确到百分比小数点后两位。

(2)自定义规则:支持用户输入自定义SQL创建监控规则
dataworks63-7.png

填写说明如下:

规则名称 填写规则名称
强弱 强规则阻塞下游,弱规则仅报警
规则字段 选择自定义SQL
采样方式 选择自定义SQL
Set Flag 输入SQL的前置set语句
自定义SQL 只接收查询语句;
可使用分区表达式变量;
可关联其他表;
可使用UDF
校验类型 分为数值型、波动率型、动态阈值型。选择不同检验类型,比较方式和阈值形式会进行相应变化
描述 输入对规则的描述,会出现在报警信息中

4. 规则内容设置完毕后,点击批量保存,规则即创建成功。

添加规则订阅管理

在监控配置首页,选择某一分区表达式,点击“订阅管理”按钮,可为该分区表达式下的监控规则添加配置订阅信息。订阅方式主要包括邮件、短信、钉钉群(支持@all)三种方式,接受对象范围为该项目下的所有成员。
dataworks63-6.png

规则试跑

规则试跑的目的有3种:测试监控规则配置的是否正确;测试订阅发送渠道是否正确;手动运行监控规则。在监控配置首页,选择某一分区表达式,点击“试跑”按钮
dataworks63-5.png

监控规则如何关联调度

监控规则和订阅都已经配置完毕、并试跑成功,那如果启动正式的规则校验呢?数据质量采用的是将规则与调度节点关联起来的方式。当该节点开始任务调度时,所关联的所有规则会同时进行校验。
关联调度节点的方式有两种:
1.在数据质量直接进行关联
在某一分区表达式下选择“关联调度”按钮,进行调度节点的绑定
dataworks63-4.png
2.在运维中心进行关联
在运维中心--周期任务中,找到希望关联的节点,右键该节点,选择“配置质量监控”
dataworks63-3.png

在出现的弹窗中,选择引擎、实例、表名、分区表达式,进行监控规则配置。注意分区表达式不要填错了哦!
dataworks63-2.png

查询任务执行结果

节点任务执行后,规则校验也随之被执行。规则校验的结果可以在数据质量的“任务查询”页面中进行查看。每条规则的详细情况可以点击“详情”进行查看。
dataworks63-1.png


好啦,本期数据质量“百问百答”就介绍到这里,下一期会为大家介绍实时数据的监控规则配置方法。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
4月前
|
数据采集 存储 DataWorks
DataWorks产品使用合集之如何查看数据质量中心(DQC)的规则执行记录
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 DataWorks 监控
dataworks数据质量
dataworks数据质量
144 1
|
4月前
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之设置任务监控的步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
消息中间件 SQL 分布式计算
DataWorks产品使用合集之如何离线增量同步Kafka数据,并指定时间范围进行同步
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之怎么离线同步MongoDB的增量数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何配置数据质量监控
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之如何自定义监控规则
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
存储 DataWorks Java
DataWorks产品使用合集之开发离线数仓时,需要多个工作空间的情况有哪些
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之如何在DataWorks中实现离线同步多个分表到MC的多级分区表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之离线同步任务下载文件时出现异常,显示:ApplicationException: 705-1013916003,该怎么排查
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

相关产品

  • 大数据开发治理平台 DataWorks