阿里云MVP Meetup 《云数据·大计算:海量日志数据分析与应用》之《数据质量监控》篇

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本手册为阿里云MVP Meetup Workshop《云计算·大数据:海量日志数据分析与应用》的《数据质量监控》篇而准备。主要阐述在使用大数据开发套件过程中如何将已经采集至MaxCompute上的日志数据质量进行监控,学员可以根据本实验手册,去学习如何创建表的监控规则,如何去订阅表等。

实验涉及大数据产品

实验环境准备

必备条件:

  • 开通大数据计算服务MaxCompute
  • 创建大数据开发套件项目空间

进入大数据开发套件,创建DataWorks项目空间

确保阿里云账号处于登录状态。

  • step1:点击进入大数据(数加)管理控制台>大数据开发套件tab页面下。
  • step2:点击右上角创建项目或者直接在项目列表-->创建项目,跳出创建项目对话框。
    1

选择相应的服务器时如果没有购买是选择不了会提示您去开通购买。数据开发、运维中心、数据管理默认是被选择中。

  • step3:勾选相应的服务单击 确认,跳转到下面的界面,填写相应的信息单击确认,创建项目完成。
    2

项目名需要字母或下划线开头,只能包含字母下划线和数字。
【注意】项目名称全局唯一,建议大家采用自己容易区分的名称来作为本次workshop的项目空间名称。

  • step4:单击进入项目跳转到下面的界面:
    进入大数据开发套件

数据质量

数据质量(DQC),是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集(DataSet)为监控对象,目前支持MaxCompute数据表和DataHub实时数据流的监控,当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供了历史校验结果的管理,以便您对数据质量分析和定级。在流式数据场景下,数据质量能够基于Datahub数据通道进行断流监控,第一时间告警给订阅用户,并且支持橙色、红色告警等级,以及告警频次设置,以最大限度的减少冗余报警。

数据质量的使用流程是,针对已有的表进行监控规则配置,配置完规则后可以进行试跑,验证此规则是否试用。当试跑成功后,可将此规则和调度任务进行关联。关联成功后,每次调度任务代码运行完毕,都会触发数据质量的校验规则,以提升任务准确性。在关联调度后,可根据业务情况,对重要的表进行订阅。订阅成功后,此表的数据质量一旦出问题,都会有邮件或者报警进行通知。

注:数据质量会产生额外的计算费用,在使用时请注意。

新增表规则配置

若已完成《日志数据上传》、《用户画像》实验,我们会得到表:ods_raw_log_d、ods_user_info_d、ods_log_info_d、dw_user_info_all_d、rpt_user_info_d。

数据质量最重要的就是表规则的配置,那么如何配置表规则才是合理的呢?我们来看一下上面这几张表应该如何配置表规则。

ods_raw_log_d

数据质量中可以看到该项目下的所有表信息,现在我们来给 ods_raw_log_d 表进行数据质量的监控规则配置。

image

选择ods_raw_log_d表,点击配置监控规则,将会进入如下页面。

image

我们可以回顾一下 ods_raw_log_d 这张表的数据来源,ods_raw_log_d 这张表的数据是从ftp中获取到的日志数据,其分区是以${bdp.system.bizdate}格式写入进表中("dbp.system.bizdate" 是获取到前一天的日期)。

image

对于这种每日的日志数据,我们可以配置一下表的分区表达式,分区表达式有如下几种,我们选择 dt=$[yyyymmdd-1] 这种表达式,有关调度表达式的详细解读,请参考文档调度参数

image
image

注:若表中无分区列,可以配置无分区,请根据真实的分区值,来配置对应的分区表达式。

确认以后,可以见到如下界面,我们可以选择创建规则。

image

选择创建规则后,出现如下界面:

image

点击添加监控规则,会出现一个提示窗,来配置规则。

image

这张表里的数据来源于FTP上传的日志文件,作为源头表,我们需要尽早判断此表分区中是否有数据。如果这张表中没有数据,那么就需要阻止后面的任务运行,因为来源表没有数据,后面的任务运行是没有意义的。

注:只有强规则下红色报警会导致任务阻塞,阻塞会将任务的实例状态置为失败。

我们在配置规则的时候,选择模板类型为表行数,将规则的强度设置为强,比较方式设置为期望值不等于0,设置完毕后点击批量保存按钮即可。

image

此配置主要是为了避免分区中没有数据,导致下游任务的数据来源为空的问题。

规则试跑

右上角有一个节点试跑的按钮,可以在规则配置完毕后,进行规则校验,试跑按钮可立即触发数据质量的校验规则。

image

点击试跑按钮后,会提示一个弹窗,确认试跑日期。点击试跑后,下方会有一个提示信息,点击提示信息,可跳转至试跑结果中。

image

image

可根据试跑结果,来确认此次任务产出的数据是否符合预期。建议每个表规则配置完毕后,都进行一次试跑操作,以验证表规则的适用性。

在规则配置完毕,且试跑又都成功的情况下。我们需要将表和其产出任务进行关联,这样每次表的产出任务运行完毕后,都会触发数据质量规则的校验,以保证数据的准确性。

关联调度

数据质量支持任务关联调度,在表规则和调度任务绑定后,每次任务运行完毕,都会触发数据质量的检查。可以在表规则配置界面,点击关联调度,配置规则与任务的绑定关系。

image

点击关联调度,可以与已提交到调度的节点任务进行绑定,我们会根据血缘关系给出推荐绑定的任务,也支持自定义绑定。

image

选中搜索结果后,点击添加,添加完毕后即可完成与调度节点任务的绑定。

image

关联调度后,表名后面的小图标会变成蓝色。

image

配置任务订阅

关联调度后,每次调度任务运行完毕,都会触发数据质量的校验,但是我们如何去跟进校验结果呢?数据质量支持设置规则订阅,可以针对重要的表及其规则设置订阅,设置订阅后会根据数据质量的校验结果,进行告警。若数据质量校验结果异常,则会根据配置的告警策略进行通知。

点击订阅管理,设置接收人以及订阅方式,目前支持邮件通知及邮件和短信通知。

image
image
image

订阅管理设置完毕后,可以在我的订阅中进行查看及修改。

image

建议将全部规则订阅,避免校验结果无法及时通知。

ods_user_info_d

ods_user_info_d 表的数据来至于rds的数据库,为用户信息表。我们在配置规则的时候,需要配置表的行数校验;还需要配置主键唯一的校验,避免数据重复。

同样,我们还是需要先配置一个分区字段的监控规则,监控的时间表达式为:dt=$[yyyymmdd-1],配置成功后,在已添加的分区表达式中可以看到成功的分区配置记录。

image

分区表达式配置完毕后,点击右侧的创建规则,进行数据质量的校验规则配置。
添加表行数的监控规则,规则强度设置为强,比较方式设置为期望值不等于0。

image

添加列级规则,设置主键列(uid)为监控列,模板类型为:字段重复值个数校验,规则设置为弱,比较方式设置为字段重复值个数小于1,设置完毕后,点击批量保存按钮即可。

image

此配置主要是为了避免数据重复,导致下游数据被污染的情况。

请不要忘记试跑->关联调度->规则订阅。

ods_log_info_d

ods_log_info_d 这张表的数据,主要是解析ods_raw_log_d 表里的数据,鉴于日志中的数据无法配置过多监控,只需配置表数据不为空的校验规则即可。
先配置表的分区表达式为:dt=$[yyyymmdd-1]

image

配置表数据不为空的校验规则,规则强度设置为强,比较方式设置为期望值不等于0,设置完毕后,点击批量保存按钮即可。

image

请不要忘记试跑->关联调度->规则订阅。

dw_user_info_all_d

dw_user_info_all_d 这个表是针对ods_user_info_d 和 ods_log_info_d 表的数据汇总,由于此流程较为简单,ods层又都已配置了表行数不为空的规则,所以此表不进行数据质量监控规则的配置,以节省计算资源。

rpt_user_info_d

rpt_user_info_d 表是数据汇总后的结果表,根据此表的数据,我们可以进行表行数波动监测,针对主键进行唯一值校验等。
先配置表的分区表达式:dt=$[yyyymmdd-1]

image

然后配置监控规则,单击右侧创建规则,点击添加监控规则。
添加列级规则,设置主键列(uid)为监控列,模板类型为:字段重复值个数校验,规则设置为弱,比较方式设置为字段重复值个数小于1。

image

继续添加监控规则,添加表级规则,模板类型为:SQL任务表行数,7天波动检测;规则强度设置为弱,橙色阈值设置成0%,红色阈值设置成50%(此处阈值范围根据业务逻辑进行设置),配置完毕后,点击批量保存即可。

image

注:此处我们监控表行数主要是为了查看每日uv的波动,好及时了解应用动态。

请不要忘记试跑->关联调度->规则订阅。

大家可能注意到了,我们在设置表规则强度的时候,数据仓库中越底层的表,设置强规则的次数越多。那是因为ods层的数据作为数仓中的原始数据,一定要保证其数据的准确性,避免因ods层的数据质量太差而影响其他层的数据,及时止损。

数据质量还提供了一个任务查询的界面,在此界面上,我们可以查看已配置规则的校验结果。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
1月前
|
存储 Prometheus 监控
程序开发中的监控和日志分析
监控和日志分析在软件开发中至关重要,它们帮助实时了解应用状态、及时发现并解决问题。监控确保系统稳定运行,优化性能和资源;日志分析则助于追踪问题根源、监测用户行为并提供安全审计。利用如Prometheus、ELK Stack等工具可实现高效监控与日志管理,从而优化应用性能和用户体验。
86 0
|
26天前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
148 54
|
1天前
|
机器学习/深度学习 传感器 人工智能
AI与未来医疗:重塑健康管理新格局随着人工智能(AI)技术的飞速发展,医疗行业正迎来一场前所未有的变革。AI不仅在数据分析、诊断支持方面展现出巨大潜力,还在个性化治疗、远程医疗等多个领域实现了突破性进展。本文将探讨AI技术在医疗领域的具体应用及其对未来健康管理的影响。
人工智能(AI)正在彻底改变医疗行业的面貌。通过深度学习算法和大数据分析,AI能够迅速分析海量的医疗数据,提供精准的诊断和治疗建议。此外,AI在远程医疗、药物研发以及患者管理等方面也展现出了巨大的潜力。本文将详细探讨这些技术的应用实例,并展望其对健康管理的深远影响。
|
1月前
|
存储 运维 监控
监控与日志管理:保障系统稳定运行与高效运维的基石
【8月更文挑战第16天】监控与日志管理是保障系统稳定运行和高效运维的基石。它们不仅能够帮助企业及时发现并解决问题,还能够为性能调优、资源优化和业务决策提供有力支持。因此,在构建系统架构时,企业应高度重视监控与日志管理的规划和实施,确保它们能够充分发挥作用,为企业的发展保驾护航。同时,随着技术的不断进步和应用场景的不断拓展,监控与日志管理也将持续演进和创新,为企业带来更多的价值和便利。
|
16天前
|
运维 Kubernetes 监控
Loki+Promtail+Grafana监控K8s日志
综上,Loki+Promtail+Grafana 监控组合对于在 K8s 环境中优化日志管理至关重要,它不仅提供了强大且易于扩展的日志收集与汇总工具,还有可视化这些日志的能力。通过有效地使用这套工具,可以显著地提高对应用的运维监控能力和故障诊断效率。
35 0
|
20天前
|
SQL 数据库 Java
Hibernate 日志记录竟藏着这些秘密?快来一探究竟,解锁调试与监控最佳实践
【8月更文挑战第31天】在软件开发中,日志记录对调试和监控至关重要。使用持久化框架 Hibernate 时,合理配置日志可帮助理解其内部机制并优化性能。首先,需选择合适的日志框架,如 Log4j 或 Logback,并配置日志级别;理解 Hibernate 的多级日志,如 DEBUG 和 ERROR,以适应不同开发阶段需求;利用 Hibernate 统计功能监测数据库交互情况;记录自定义日志以跟踪业务逻辑;定期审查和清理日志避免占用过多磁盘空间。综上,有效日志记录能显著提升 Hibernate 应用的性能和稳定性。
29 0
|
20天前
|
开发者 前端开发 编解码
Vaadin解锁移动适配新境界:一招制胜,让你的应用征服所有屏幕!
【8月更文挑战第31天】在移动互联网时代,跨平台应用开发备受青睐。作为一款基于Java的Web应用框架,Vaadin凭借其组件化设计和强大的服务器端渲染能力,助力开发者轻松构建多设备适应的Web应用。本文探讨Vaadin与移动设备的适配策略,包括响应式布局、CSS媒体查询、TouchKit插件及服务器端优化,帮助开发者打造美观且实用的移动端体验。通过这些工具和策略的应用,可有效应对屏幕尺寸、分辨率及操作系统的多样性挑战,满足广大移动用户的使用需求。
24 0
|
20天前
|
SQL 数据管理 关系型数据库
SQL与云计算:利用云数据库服务实现高效数据管理——探索云端SQL应用、性能优化、安全性与成本效益,为企业数字化转型提供全方位支持
【8月更文挑战第31天】在数字化转型中,企业对高效数据管理的需求日益增长。传统本地数据库存在局限,而云数据库服务凭借自动扩展、高可用性和按需付费等优势,成为现代数据管理的新选择。本文探讨如何利用SQL和云数据库服务(如Amazon RDS、Google Cloud SQL和Azure SQL Database)实现高效的数据管理。通过示例和最佳实践,展示SQL在云端的应用、性能优化、安全性及成本效益,助力企业提升竞争力。
38 0
|
20天前
|
存储 JSON 监控
FastAPI日志之谜:如何揭开Web应用监控与调试的面纱?
【8月更文挑战第31天】在现代Web开发中,日志记录对于监控应用状态、诊断问题和了解用户行为至关重要。FastAPI框架提供了强大的日志功能,使开发者能轻松集成日志记录。本文将详细介绍如何在FastAPI中设置和利用日志,包括基础配置、请求响应日志、错误处理和结构化日志等内容,帮助提升应用的可维护性和性能。
46 0
|
22天前
|
消息中间件 Prometheus 监控
Producer的监控与日志记录最佳实践
【8月更文第29天】在分布式系统中,消息队列作为关键组件之一,其稳定性和性能至关重要。生产者(Producer)负责生成并发送消息到消息队列中,因此确保生产者的健康运行是非常重要的。本文将探讨如何为生产者设置监控和日志记录,以跟踪其健康状况和性能指标。
24 0

热门文章

最新文章