👉🏻场景
在传统的数据治理模式中,数据质量问题主要依赖人工排查。面对复杂的数据血缘关系和海量的数据规模,运维和数据开发人员往往需要耗费大量时间,逐层追溯上游任务逻辑、审查代码并核对源头数据,不仅过程繁琐,且难以快速、精准地定位问题根因,导致问题响应滞后,治理效率低下。
👉🏻解决方案及功能
在Dataphin 5.4版本中,X-数据质量新增了质量问题根因诊断,通过AI大模型智能分析采样数据和血缘解析,构建问题分析证据链,实现质量问题的精准溯源定位,并自动生成质量问题整改建议及影响评估,形成完整质量报告,实现治理流程闭环。
- 我们以一张用户信息表
ec.dwd_dim_user_info为例,在「治理」-「质量」-「质量规则」中,为用户的年龄字段age配置质量规则,校验其取值是否在0-120之间。
- 在「问题清单」中,我们可以看到用户信息表
ec.dwd_dim_user_info出现了质量问题,即age字段存在大于120或小于0的取值。此时,我们无需进行人工排查,一键点击「智能根因分析」,借助大模型精准定位问题根因。
「X-数据质量」Agent会自动创建质量问题诊断任务,分析问题根因。
- 诊断完成后,系统将列举问题原因概述,可以点击查看详细说明。
可以看到,由于上游表ec.ods_users中的birthday字段存在未来日期(如2050-05-30),导致下游表ec.dwd_dim_user_info在计算age字段时产生负值,导致了本条质量问题。
- 我们可以根据Agent提出的改进建议,发起整改流程,优化数据链路和监控体系。