电商项目之数仓的数据质量监控讲解|学习笔记

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 快速学习电商项目之数仓的数据质量监控讲解

开发者学堂课程【新电商大数据平台2020最新课程电商项目之数仓的数据质量监控讲解】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/640/detail/10499


电商项目之数仓的数据质量监控讲解

内容介绍:

一.课程回顾

二.课程内容:数据的质量监控

 

一. 课程回顾:

1. 上节课主要学习了建模分析的一些问题、痛点、调用的原则。

2. 外围建设,基于外围建设里的系统,比如说调度系统、元数据管理系统、离线实时计算系统、数据质量监控系统,这些都需要进行全局考虑。

3. 重点元数据管理。

了解信息:

表信息、字段信息、负责人信息、分区信息、血缘信息、代码信息、存储信息、热度情况、权限信息、以及使用注意事项。

 

二、课程内容:数据的质量监控

image.png

1.什么是数据的质量监控系统?

数据质量监控系统主要是基于规则判断(由公司根据自身业务制定,比如在运行任务的时候,规定这个调度跑出去两个小时,但是数据跑出三个小时或者四个小时,违反了所制定的规定,此时是存在一定的问题的。)

2.达到数据监控的目的,系统建设一般分为三个阶段:

(1)表级别监控:

主要为表的总条数、总大小、分区数据、各分区条数、各分区大小,条数/大小同环比,日增长情况等(针对表而言,比如说今天产生了一定的数据量,即数据条数,有可能今天的总大小和昨天的差距比较大,此时我们进行一些数据的监控,辨别哪一方面出现了问题并分析原因。

(2)也会将各分区的数量、各分区的条数和前期的数据进行对比或者类比,将每个分区的大小、条数同比及环比进行比较,同比即和前一年该月相比较,包括日增长情况,这些都要纳入表的质量监控中。)

(3)字段级别监控:

枚举值异常判断、特殊值判断、范围判断等(字段监控即监控是否有空的字段、垃圾的数据要进行处理。

(4)范围判断:比如正常情况下,一个普通的用户网购时不会出现几千万的购物值,如有这种情况,我们需要对这个字段进行监控,如果超过这个数据,那么这个数据有可能是不合格的,此时需要进行一个判断或者分析)

(5)全链路数据监控:

主要依赖于上下游血缘分析,自动判断跟踪故障点,并及时告知相关负责人,表级别和字段级别的监控是比较常规且易实现的监控方式,全链路数据监控比这两者要复杂很多,

涉及到从:源数据->数据通道->数据ETL->数据展示的全过程(相对于表和字段,全链路数据监控要复杂很多,比如说数据源,技术战区采集。

采集后有一个文字盘,然后通过采集工具进行一些数据收集,这个过程中可能会有一些数据的管道进行传输,传输完之后存储在存储借证,比如说 HLS ,然后对 HLS 进行一个数据清洗,使用  MR进行清洗,在完成  ETL 之后,让数据落地到对应的层级当中,再进行指标计算。指标计算结果出来后,再进行一个数据的展示。

整个过程比较复杂,不易实现。因为这种数据监控涉及的内容比较多,解析也比较复杂,比表和字段难度更大,要考虑到性能、数据、用户量,监控的要求、监控的复杂度、强度要高很多。

全链路数据监控主要依赖于上下游数据,比如数据源。做完数据传输,可能有一个数据通道,数据通道依赖于数据源,数据 ETL 依赖于数据通道,每一层依赖于每一层,很严谨,问题很容易发生。比如有数据丢失,处理时数据过大资源不够怎么办?

假如源数据和数据通道都没有问题,到 ETL 出现问题,这个时候要怎么办?)

总结:

全链路数据监控比较复杂,做的时候考虑的方向比较广。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
3天前
|
消息中间件 数据采集 SQL
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
|
5月前
|
数据采集 大数据
大数据实战项目之电商数仓(二)
大数据实战项目之电商数仓(二)
116 0
|
3月前
|
BI
数仓项目总结--持续更新中
数仓项目总结--持续更新中
47 2
|
5月前
|
SQL 关系型数据库 MySQL
详尽分享音乐数据中心数仓综合项目
详尽分享音乐数据中心数仓综合项目
47 0
|
5月前
|
消息中间件 分布式计算 Hadoop
大数据实战项目之电商数仓(一)
大数据实战项目之电商数仓(一)
247 0
|
数据采集 存储 数据库
2、电商数仓(业务数据采集平台)电商业务流程、电商常识、电商系统表结构、业务数据模拟、业务数据采集模块(一)
2、电商数仓(业务数据采集平台)电商业务流程、电商常识、电商系统表结构、业务数据模拟、业务数据采集模块(一)
|
6月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
516 0
|
数据采集 消息中间件 数据可视化
2、电商数仓(业务数据采集平台)电商业务流程、电商常识、电商系统表结构、业务数据模拟、业务数据采集模块(二)
2、电商数仓(业务数据采集平台)电商业务流程、电商常识、电商系统表结构、业务数据模拟、业务数据采集模块(二)
|
消息中间件 数据采集 JSON
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(二)
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(二)