Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。

高质量数据能更好支撑业务发展

数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。

数据质量的好坏,直接影响着业务的开展,下面是一些简单的示例:

良好的数据质量

糟糕的数据质量

1、数据支撑业务顺利开展,如

更精确的用户偏好,通过推荐提高用户的消费额

更实时的物流信息,优化物流分配和配送效率

更准确的仓储信息,优化仓储补货和管理

2、及时、准确的数据,支持高效的商务决策

1、业务开展受阻,如

无法正确开具发票,导致无法走财务流程

登记了错误的用户联系方式,导致货物无人接收

2、数据错误导致业务决策出错

3、最好的机器学习算法,遇到数据质量不足时,结果也不如人意

数据质量问题的来源众多,业务方面(业务规则未定义、业务输入控制)、管理方面(无完整数据治理体系)、技术方案(设计和开发脱节、数据采集有误等)都可能导致数据质量变差。完整的解决数据质量问题,需要从业务、管理和技术等多方面进行优化。

c0cebc07-cbf8-4c18-bc2d-08720be691fc.png

Dataphin数据质量可以帮助组织沉淀业务规则,并通过技术进行自动化的质量校验,同时支持告警、大盘等管理功能,助力企业解决数据质量问题,获得高质量数据来更好支持业务发展。


全域数据质量能力

image.png

【点击图片收看视频介绍】

全域数据质量是指对客户全场景/全数据源下的数据常用的数据场景,都可以进行数据质量监控,本次升级支持了大部分常用场景和计算源,并持续扩展中。

Dataphin当前能够对客户在数据处理中常用到的数据引擎、数据源和数据对象进行数据质量的监控,详细支持的列表如下:

质量校验对象

支持范围

质量校验能力

Dataphin表

支持Dataphin上的物理表和逻辑表的质量校验。支持Maxcompute、Hadoop系列(CDP、CDH、TDH等)、ADB等环境下数据表质量的校验

支持7种质量性质下24个模版共计100+不同监控指标的质量规则校验

该部分详见质量规则模版

全域表

支持MySQL、Oracle、Maxcompute、Hive等7种数据源表的质量检测,并持续扩展中

支持7种质量性质下24个模版共计100+不同监控指标的质量规则校验

该部分详见质量规则模版

数据源

注册到Dataphin上的数据源的稳定性,支持20+常见数据源的质量校验,并持续扩展中

1、数据源连通性

2、表结构变动监控

实时元表

Dataphin的实时元表

1、实时指标监控

2、实时离线对比

3、实时多条链路对比

指标

Dataphin生产的指标

1、指标的稳定性、唯一性等监控


质量规则模版

Dataphin数据质量,支持对数据表进行完整性、唯一性、及时性、有效性、一致性、稳定性、自定SQL等7种质量模版分类下24个模版共计100+不同监控指标的质量规则校验,7种质量模版分类介绍如下:

质量规则分类

分类说明(主要基于DAMA)

举例

完整性

1、完备性用于对表/字段是否存在所有必要数据进行判断,用于检查数据是否完整

2、常用于判断字段填充率、必填/非空(填充率100%)等

企业有1000员工,只有600人有联系方式

唯一性

1、唯一性用于对字段是否唯一进行校验。

2、常用于判断主键/业务实体的唯一性、重复率等

员工身份证号码应该只出现一次

及时性

1、及时性用于对数据时间更新的频率和间隔进行验证

2、常用于判断业务日期/操作日期是否最新,时间间隔是否合理

A上午8点入职,10点才能在系统看到相关信息

有效性

1、有效性用于对数据内容填写是否符合规范进行校验

2、常用于对数据的类型/范围/长度格式进行校验

员工年龄-1岁,无效

一致性

1、一致性用于对比不同列、不同表之间的数据一致性或者业务一致性。

2、常用于比较不同数据表的主键是否相同、单价乘数量是否等于总价等

A在员工系统的公司职务是总监,在销售系统是主管

稳定性

1、稳定性用于校验数据产出是否稳定,也可以用于校验业务数据是否稳定

2、常用于校验数据总大小/总条数是否稳定,以及数据的汇总值、平均值是否稳定等

客户数量在10000家,当一个月波动20%的时候可能存在异常

自定义SQL

支持自定义指标监控和自定义异常数据监控两种方式,分别针对数据统计值和数据详情进行质量监控

/

*这里仅针对模版的整体能力进行说明,每一个分类下都有更多的模版和应用场景,详见Dataphin产品手册


产品能力展示

2edb41a9-c49d-4527-86f3-158c2389e124.png

1、质量大盘

质量大盘可以展示当前全局的校验规则情况和异常情况,有助于管理员快速发现整体问题,安排排查任务。

cea542b3-5316-4dbc-97d5-99d16bf39b61.png

2、模版管理

模版管理可以查看质量当前所有的模版信息。

模版分为系统内置模版和自定义模版,系统模版开箱即用,可以用来快速创建质量规则。如果组织内有通用的需求(如:用户年龄区间有效性、财务数据准确性等),可以沉淀为通用的模版,用于业务质量规则的快速创建。

2.1、质量模版管理

36ea73a4-6bac-4e5e-96aa-c3f3f2deed94.png

2.2、新建自定义规则模版

914bd084-db06-493a-9146-51418ef70a1c.png

3、质量规则

支持给质量监控对象(如表、数据源)配置质量规则,并设置告警阈值和规则强弱;配置调度后就可以定时或者跟随数据更新来自动触发质量的校验任务,完成后自动生成质量报告,并根据校验情况完成告警、阻断等后续操作。

3.1、质量规则管理

4c4e3f53-b83b-474c-b985-8605d46ae77f.png

3.2、表的质量规则配置

3e62a98d-7e72-4443-ba1d-d3321ffc8d75.png

3.3、新建质量规则

cac44f3d-e4b6-43d7-bbca-176cd35b41e0.png

预览质量规则SQL

9a5a2a69-5d5e-4bc6-9f2c-592290a918f3.png

3.4、调度配置

c3d19faf-8ecd-4233-b987-c04fbf810a1c.png

3.5、告警配置

7ddbfbf4-e3f6-4eff-8c5c-3b6de34c0dfb.png

3.6、质量报告

40e0308e-493d-43b4-a1e5-e25beb361c28.png

3.7、质量规则试跑和运行

cbc11b3a-3d0b-4be9-89dd-95be9b3af37a.png


4、校验记录

校验记录可以查看每次校验规则执行的具体结果和详情,是每天检查数据质量和处理质量问题最常用的入口。Dataphin质量的校验记录,详细的记载了每次质量规则校验的时间、状态和执行详情,便于进行日常检查和错误排查。

4.1、资源粒度的校验记录

3ca4d496-e171-4a52-abf6-1c3d1a8030ca.png

4.2、资源校验详情

736106c0-fc32-40dc-9321-3b752d969104.png

50cde213-267c-4882-93c0-6d3000cdbc44.png


5、数据源管理

数据源除了要进行数据质量检测任务外,还要进行日常的业务支撑。为了防止数据质量任务影响到日常业务,支持对单个数据源支持的最大质量并行度进行控制,当达到质量最大并行度时,新调度的质量规则会进入排队等待状态,以保护业务的正常开展。

deff5d0c-dbfd-41fe-b919-841752e95463.png


最后,我们通过视频来了解下Dataphin数据质量模块的质量监控场景和具体的操作。


309C1EC9-F34D-46d8-9CF0-8C997671F325.png

【点击图片收看视频】


相关文章
|
4月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
2月前
|
SQL 运维 安全
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
1502 2
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
1月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
94 1
|
2月前
|
运维 关系型数据库 调度
想一套Dataphin管理云上云下的集群和数据?“注册调度集群”来帮忙!
在实际业务场景中,部分企业在云上和云下(本地机房)都存在集群和数据库,企业期望通过一套Dataphin同时对这些集群和数据库进行管理,如何有效解决数据跨网络传输带来的安全性低和流量成本高的问题是其中的关键。为了解决上述问题,Dataphin推出“注册调度集群”功能,帮助企业实现一套Dataphin管理云上云下的集群和数据。
|
2月前
|
数据采集 存储 Oracle
高效元数据采集与管理 -- Dataphin新功能助力数据驱动业务增长
Dataphin作为领先的数据开发与治理一体化平台,全新推出元数据采集与管理功能,可支持多种采集源,并能对采集到的元数据对象进行统一管理和运营,同时可对接丰富的下游应用,为企业在数据管理各个环节提供强有力的支持。
127 2
|
3月前
|
存储 SQL 多模数据库
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
Lindorm通过与Dataphin的深度整合,进一步解决了数据集成和数据治理的问题,为企业提供更加高效和更具性价比的方案。
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
|
3月前
|
数据采集 数据可视化 数据管理
台州银行携手瓴羊Dataphin共建数据平台,打造小微金融治理新标杆
台州银行数据治理项目携手瓴羊Dataphin,荣获中国信息通信研究院评为“2023年铸基计划高质量数字化转型典型优秀案例”、数字化研究机构沙丘社区选为“2024中国数据资产管理最佳实践案例”双重认可。
517 4

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin