《全链路数据治理-智能数据建模 》——客户案例:工业OT 域数据最佳实践(1)

简介: 《全链路数据治理-智能数据建模 》——客户案例:工业OT 域数据最佳实践(1)

客户案例:工业OT 域数据最佳实践


作者:张为,阿里云全球技术服务部


一、 传统维度建模的方案介绍


数仓建设中常用的方式是维度建模,其核心是将原表分为事实表和维度表。然后采用星型模型或者雪花模型进行数据建模。星型模型,是一种非常简单常用的模型,事实表直接和多个维度表相连,维度表之间无连接。雪花模型,事实表与多个维度表相连,维度表之间有连接。


阿里内部在维度建模理论基础上,对数据的分层分域、维度一致性、事实表设计、原子指标/派生指标的定义及设计等做了细化定义,同时定义了一套标准的从设计到开发的实施流程。


1. 维度建模工作流程


维度建模工作的实施流程如下图所示。


image.png


需求调研:分为自底向上和自顶向下两种,自底向上是从现有的业务系统入手,从业务上分析数据域、业务过程,了解数据需求。自顶向下是和实际报表使用人员了解需求,依据报表SQL 反向推导所需的数据源及指标信息。

数据域划分:对数仓建设涉及的数据类别进行划分,一般可以按照行业标准或者业务系统功能模块来划分。

指标设计:构建总线矩阵,梳理原子指标及派生指标清单,以及原子指标的溯源、派生指标的计算逻辑等。

数据建模:构建一致性维度,构建一致性度量及指标,分层设计DWD/DWS/DIM/ADS 模型。

数据开发:物理表创建,数据业务逻辑SQL 开发。

任务运维:数据开发任务运维。


从工作流程可以看出,维度建模的任务链路是比较长的,同时其工作量和指标规模基本成正比。涉及的指标量越多,调研、设计、开发的工作成比例的增加。


2. 维度建模使用场景及特点


维度建模广泛应用于IT 域数仓建设的场景中,该类场景的特点是原始数据来源于业务系统各功能模块,数据可以很自然的分为维度表和事实表,同时挂载到类似业务板块、业务过程这种概念上,通过统一的一套方法论即可对不同的场景、不同的数据源完成建模设计。虽然使用的建模方法论和流程是相同的,但是对于不同的指标设计是不同的,即当增加一个场景的指标时,需求调研、指标设计、模型设计、开发运维这个过程需要完整的走一遍,因此项目的实施工作量和指标数量基本成正比关系。





《全链路数据治理-智能数据建模 》——客户案例:工业OT 域数据最佳实践(2) https://developer.aliyun.com/article/1230884?groupCode=tech_library

相关文章
|
IDE Java Linux
Pycharm2022.2.3最新激活破解教程(永久激活)
pycharm破解直达:https://cloud.fynote.com/share/d/fG3ILUVAJ
29972 10
|
7月前
|
自然语言处理 开发者
拿下30个第1名的腾讯混元翻译模型,开源!
腾讯混元又带来一个在国际机器翻译比赛拿下30个第1名的翻译模型Hunyuan-MT-7B,它总参数量仅7B,支持33个语种、5种民汉语言/方言互译,是一个能力全面的轻量级翻译模型。
682 0
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
人工智能 运维 关系型数据库
云栖大会|数据库与AI全面融合,迈入数据智能新纪元
2024年云栖大会「数据库与AI融合」专场,来自NVIDIA、宇视科技、合思信息、杭州光云科技、MiniMax等企业的代表与阿里云瑶池数据库团队,共同分享了Data+AI全面融合的最新技术进展。阿里云发布了DMS的跨云统一开放元数据OneMeta和智能开发OneOps,推出《云数据库运维》技术图书,并介绍了PolarDB、AnalyticDB、Lindorm和Tair等产品的最新能力,展示了AI在数据库领域的广泛应用和创新。
1203 15
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云数据库重磅升级!元数据服务OneMeta + OneOps统一管理多模态数据
|
机器学习/深度学习 自然语言处理 并行计算
量子计算与神经形态计算:区别、联系及未来潜力对比
量子计算与神经形态计算:区别、联系及未来潜力对比
585 4
|
消息中间件 监控 负载均衡
深度剖析Kafka中Coordinator的奥秘
深度剖析Kafka中Coordinator的奥秘
964 1
|
数据建模 物联网 BI
《全链路数据治理-智能数据建模 》——客户案例:工业OT 域数据最佳实践(2)
《全链路数据治理-智能数据建模 》——客户案例:工业OT 域数据最佳实践(2)
405 0
|
存储 SQL 缓存
万字长文~vue+express+mysql带你彻底搞懂项目中的权限控制(附所有源码)
万字长文~vue+express+mysql带你彻底搞懂项目中的权限控制(附所有源码)
494 0

热门文章

最新文章