电商项目之数仓概念分析|学习笔记

简介: 快速学习电商项目之数仓概念分析

开发者学堂课程【新电商大数据平台2020最新课程电商项目之数仓概念分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/640/detail/10490


电商项目之数仓概念分析 

 

数仓分层概述

根据实际生产情况,建议将数据仓库分为三层,自下而上为:

数据引入层(ODS, Operation Data Store)这一层里面主要是原始层原始数据。

数据公共层(CDM,Common Data Model)比较杂些dws、临时表等

数据应用层(ADS,Application Data Service)也叫数据集市生成报表形成报表。

1、数据引入层(ODS, Operation Data Store) :

将原始数据几乎无处理的存放在数据仓库系统,结构上与源系统基本保持一致,是数据仓库的数据准备区。

就是它会将原始的数这个原始数据,就比如说你刚采集过来的数据,没有经过任何的处理。

还有我们的业务数据也没有经过任何的数据,比如过滤、清除、空字段等等,什么都没有处理,直接将他怎么样刷入下载到我们的数据仓库系统当中,然后他的结构和语言数据不变,原封不动的刷入到 ODS 中,这里面的数据叫天原词数据引入参数据。那这里的数据一般会和原始数据一致。

2、数据公共层(CDM, Common Data Model,又称通用数据模型层),包含 DIM 维度表、DWD 和 DWS, 由 ODS 层数据加工而成。主要完成数据加工与整合,建立-致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。对上一层进行降维同一纬度。

(1)公共维度层(DIM) :基于维度建模理念思想,建立整个企业的一致性维度。降低数据计算口径和算法不统一风险。公共维度层的表通常也被称为逻辑维度表,维度和维度逻辑表通常一-对应。

(2)公共汇总粒度事实层(DWS) :以分析的主题对象作为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段物理化模型。

构建命名规范、口径一致的统计指标, 为上层提供公共指标,建立汇总宽表、明细事实表。公共汇总粒度事实层的表通常也被称为汇总逻辑表,用于存放派生指标数据。

(3)明细粒度事实层(DWD) :以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表。可以结合企业的数据使用特点,将明事实表的某些重要维度属性字段做适当冗余,也即宽表化处理。明细粒度事实层的表通常也被称为逻辑事实表。

公共汇总粒度事实层的表通常也被称为汇总逻辑表,用于存放派生指标数据。

(3)明细粒度事实层(DWD) :以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表。可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,也即宽表化处理。明细粒度事实层的表通常也被称为逻辑事实表。

3、数据应用层(ADS, Application Data Service) :存放数据产品个性化的统计指标数据。根据 CDM 与 ODS 层加工生成。

从数据引入层到数据公共层再到数据应用层整个过程叫做数据仓库。这只是一个理论上的,那么实际在实践过程中肯定要比这个理论上相比较要复杂一些,但是所有的复杂操作,所有的逻辑操作都是依据于什么样理论的基础之上。

理论通了你的代码才会通,理论不通,代码就不通。最简单的一个例子就是你的想法错了,那你做的事情都是错的,你想法对了,那你做的做的事情都是对的。所以说我们首先第一点理论先确立再去数仓的搭建以及模型的建立。

以上整个过程就是我们所说的一个概念分析,当然它里面可能有一些使用的模型。比如说星型模型,雪花型模型等等一系列模型。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
3月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
582 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
5月前
|
SQL DataWorks 关系型数据库
DataWorks+Hologres:打造企业级实时数仓与高效OLAP分析平台
本方案基于阿里云DataWorks与实时数仓Hologres,实现数据库RDS数据实时同步至Hologres,并通过Hologres高性能OLAP分析能力,完成一站式实时数据分析。DataWorks提供全链路数据集成与治理,Hologres支持实时写入与极速查询,二者深度融合构建离在线一体化数仓,助力企业加速数字化升级。
|
7月前
|
存储 缓存 分布式计算
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
本文将深入探讨基于 StarRocks 和 Iceberg 构建的云原生湖仓分析技术,详细解析两者结合如何实现高效的查询性能优化。内容涵盖 StarRocks Lakehouse 架构、与 Iceberg 的性能协同、最佳实践应用以及未来的发展规划,为您提供全面的技术解读。 作者:杨关锁,北京镜舟科技研发工程师
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
|
8月前
|
存储 消息中间件 Java
抖音集团电商流量实时数仓建设实践
本文基于抖音集团电商数据工程师姚遥在Flink Forward Asia 2024的分享,围绕电商流量数据处理展开。内容涵盖业务挑战、电商流量建模架构、流批一体实践、大流量任务调优及总结展望五个部分。通过数据建模与优化,实现效率、质量、成本和稳定性全面提升,数据质量达99%以上,任务性能提升70%。未来将聚焦自动化、低代码化与成本优化,探索更高效的流批一体化方案。
580 12
抖音集团电商流量实时数仓建设实践
|
10月前
|
SQL 运维 BI
湖仓分析|浙江霖梓基于 Doris + Paimon 打造实时/离线一体化湖仓架构
浙江霖梓早期基于 Apache Doris 进行整体架构与表结构的重构,并基于湖仓一体和查询加速展开深度探索与实践,打造了 Doris + Paimon 的实时/离线一体化湖仓架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。
555 3
湖仓分析|浙江霖梓基于 Doris + Paimon 打造实时/离线一体化湖仓架构
|
9月前
|
关系型数据库 MySQL OLAP
无缝集成 MySQL,解锁秒级 OLAP 分析性能极限,完成任务可领取三合一数据线!
通过 AnalyticDB MySQL 版、DMS、DTS 和 RDS MySQL 版协同工作,解决大规模业务数据统计难题,参与活动完成任务即可领取三合一数据线(限量200个),还有机会抽取蓝牙音箱大奖!
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
761 58
|
12月前
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。

热门文章

最新文章