开发者学堂课程【新电商大数据平台2020最新课程:电商项目之数仓的数据质量监控讲解】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/640/detail/10499
电商项目之数仓的数据质量监控讲解
内容介绍:
一.课程回顾
二.课程内容:数据的质量监控
一. 课程回顾:
1. 上节课主要学习了建模分析的一些问题、痛点、调用的原则。
2. 外围建设,基于外围建设里的系统,比如说调度系统、元数据管理系统、离线实时计算系统、数据质量监控系统,这些都需要进行全局考虑。
3. 重点元数据管理。
了解信息:
表信息、字段信息、负责人信息、分区信息、血缘信息、代码信息、存储信息、热度情况、权限信息、以及使用注意事项。
二、课程内容:数据的质量监控
1.什么是数据的质量监控系统?
数据质量监控系统主要是基于规则判断(由公司根据自身业务制定,比如在运行任务的时候,规定这个调度跑出去两个小时,但是数据跑出三个小时或者四个小时,违反了所制定的规定,此时是存在一定的问题的。)
2.达到数据监控的目的,系统建设一般分为三个阶段:
(1)表级别监控:
主要为表的总条数、总大小、分区数据、各分区条数、各分区大小,条数/大小同环比,日增长情况等(针对表而言,比如说今天产生了一定的数据量,即数据条数,有可能今天的总大小和昨天的差距比较大,此时我们进行一些数据的监控,辨别哪一方面出现了问题并分析原因。
(2)也会将各分区的数量、各分区的条数和前期的数据进行对比或者类比,将每个分区的大小、条数同比及环比进行比较,同比即和前一年该月相比较,包括日增长情况,这些都要纳入表的质量监控中。)
(3)字段级别监控:
枚举值异常判断、特殊值判断、范围判断等(字段监控即监控是否有空的字段、垃圾的数据要进行处理。
(4)范围判断:比如正常情况下,一个普通的用户网购时不会出现几千万的购物值,如有这种情况,我们需要对这个字段进行监控,如果超过这个数据,那么这个数据有可能是不合格的,此时需要进行一个判断或者分析)
(5)全链路数据监控:
主要依赖于上下游血缘分析,自动判断跟踪故障点,并及时告知相关负责人,表级别和字段级别的监控是比较常规且易实现的监控方式,全链路数据监控比这两者要复杂很多,
涉及到从:源数据->数据通道->数据ETL->数据展示的全过程(相对于表和字段,全链路数据监控要复杂很多,比如说数据源,技术战区采集。
采集后有一个文字盘,然后通过采集工具进行一些数据收集,这个过程中可能会有一些数据的管道进行传输,传输完之后存储在存储借证,比如说 HLS ,然后对 HLS 进行一个数据清洗,使用 MR进行清洗,在完成 ETL 之后,让数据落地到对应的层级当中,再进行指标计算。指标计算结果出来后,再进行一个数据的展示。
整个过程比较复杂,不易实现。因为这种数据监控涉及的内容比较多,解析也比较复杂,比表和字段难度更大,要考虑到性能、数据、用户量,监控的要求、监控的复杂度、强度要高很多。
全链路数据监控主要依赖于上下游数据,比如数据源。做完数据传输,可能有一个数据通道,数据通道依赖于数据源,数据 ETL 依赖于数据通道,每一层依赖于每一层,很严谨,问题很容易发生。比如有数据丢失,处理时数据过大资源不够怎么办?
假如源数据和数据通道都没有问题,到 ETL 出现问题,这个时候要怎么办?)
总结:
全链路数据监控比较复杂,做的时候考虑的方向比较广。