电商项目之 DW 层分析讲解|学习笔记

简介: 快速学习电商项目之 DW 层分析讲解

开发者学堂课程【新电商大数据平台2020最新课程电商项目之 DW 层分析讲解】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/640/detail/10521


电商项目之 DW 层分析讲解


目录

一、 主题划分

二、 概述

三、明细粒度事实层(DWD)


DW 层里面分为几个表,按照不同的行为分析和数据分析,确定不同的主题,根据主题创建对应主题表,形成 DW 主题层,也是明细层,按照明细规则划分数据。


一、 主题划分

根据电商数仓里的数据来构成主题。

在不同的业务中,数仓建设都会涉及到几种类型的数据通用行为数据、业务强相关的数据、通用行为衍生出的行为数据以及其它不易划分的数据:

1、通用行为数据主题:

即各业务场景都容易出现行为,比如用户行为日志中的曝光、点击和下载,搜索等,归位一类数据。

2、业务行为数据主题:

主要是指和业务强相关的行为,比如说电商下单业务,视频业务中有播放行为,根据业务数据划分主题。

3、衍生行为数据主题:

主要是指非用户原始的行为,比如说留存,本身是由用户活跃来描述的。

4、其它行为数据主题:

有一些多主题交叉的数据,比如跨业务和行为的阅读带来的购买行为数据主题

电商项目中所涉及的主题包括(参考下面的数仓结构图):

【用户主题】>衍生行为数据主题(更多的)

【交易主题】>业务行为数据主题

【营销活动主题】>业务行为数据主题

【事件(行为日志)主题】>通用行为数据主题

这是本次项目划分的过程,上面是划分的规则。

 

二、概述

1、DWD 与 DWS

公共汇总粒度事实层(DWS)和明细粒度事实层(DWD)的事实表作为数据仓库维度建模的核心,以专业数据来表达所有的本地建模都是围绕这个开展,需索绕业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包括引用的度和与业务过程有关的度量,度量通常为数值型数据,作为事实逻错表的事实。事实属性则作为事实逻表的描述信息,关联维度则将事实属性中的外键字段关联对应维度,这是建模的核心。

示例:

用户产品浏览主题

create external table if not exists dwd nshop. dwd_nshop actlog product_view(

user_ id string comment用户id',

os string comment手机系统

os version string comment+手机系统版本

manufacturer string comment手机制造商,

carrier string comment电信运营商

network type string comment网络类型

areacode string comment地区编码

target id string comment产品I'

ct higint comment产生时间

一定依赖用户行为数据,用户产生的相关日志下沉到 DWD,对应的主题表。

有一些度量,看上面的字段就可以,比如说用户快递,像手机系统,手机系统版本,手机制造商等,谢谢都可以叫维度,里面 ID 是和其他表关联的维度。这里面没有聚合操作,没有度量值。

1、数据依赖

2、ODS 层的用户行为日志(odsnshop.u(qdsnsh0pa0d5nshoP《O1U5PnCLO)

3、哪些维度(包括关联其他主题维度)、度量?

维度:

1以用户相关的维度user_id、osos_version manufacturer 等等】

2关联相关主题维度【target_id】

3度量值聚合操作(sum, count 等等)

维表列:

时间、地区、产品维度等这类数据往往应用在dm层进行统计报表操作中处理或进行多维计算时作为多维组合方案使用,

如 groupingsets(areacode地区bdp_day 时间维度、os 操作系统等等)

一般把时间、地区、产品维度等这类数据整合起来,做一些多维分析。

这是创建明细的基本概念,按照不同的维度划分主题,同时按照数据类型创造主题,需要的字段取决于后期业务依赖。

 

三、明细粒度事实层(DWD)

1.DWD 是什么?

明细粒度事实层以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表,可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,即宽表化处理明细粒度事实层(DWD)通常分为三种:事务事实表、周期快照事实表和累积快照事实表。

2.DWD 中的信息有什么

事实表中一条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表述:一种是维度属性组合所表示的细节程度,一种是所表示的具体业务含义。

(1) 作为度量务过程的事实,通常为整型或浮点型的十进制数值,有可加性、半可加性和不可加性三种类型:

(2) 可加性事实是指可以按与事实表关联的任意维度进行汇总示例:交易订单记录表中的【用户 ID】可以进行 countdistinct count 汇总。

(2)半可加性事实只能按照特定维度汇总不能对所有维度汇总

示例:

库存可以按照地点和商品进行汇总,而按时间维度把一年中每个月的库存累加则毫无意义。

交易订单记录表中的【时间维度、地区维度按照这类“自然属性”的维度进行统计,在主题层没有实际意义,而偏统计报表类计算更多在D 层进行汇总,或者在 DS 层往往是以某个主题数据做核心,与其产生关系的其他主题数据作为度量值来进行统计汇总的。

(3)完全不可加性

示例:转化率、比率型等事实

假如这个表统计各种的数量值,就是事实表,一般叫做明细层,创建各种主题率。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
1月前
|
人工智能 自然语言处理 JavaScript
AI智能体实现自主化UI回归测试全解析 Playwright+MCP
Playwright结合MCP与大语言模型,实现AI驱动的自动化测试。通过自然语言指令操控浏览器,降低技术门槛,提升测试效率与可靠性,开启智能测试新时代。
|
4月前
|
存储 缓存 Apache
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
A+流量分析平台是阿里集团统一的全域流量数据分析平台,致力于通过埋点、采集、计算构建流量数据闭环,助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战,平台采用Flink+Paimon+StarRocks技术方案,实现高吞吐写入与秒级查询,优化存储成本与扩展性,提升日志分析效率。
553 1
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
Post-Training on PAI (1):一文览尽开源强化学习框架在PAI平台的应用
Post-Training(即模型后训练)作为大模型落地的重要一环,能显著优化模型性能,适配特定领域需求。相比于 Pre-Training(即模型预训练),Post-Training 阶段对计算资源和数据资源需求更小,更易迭代,因此备受推崇。近期,我们将体系化地分享基于阿里云人工智能平台 PAI 在强化学习、模型蒸馏、数据预处理、SFT等方向的技术实践,旨在清晰地展现 PAI 在 Post-Training 各个环节的产品能力和使用方法,欢迎大家随时交流探讨。
|
Docker 容器
Docker 启动失败 (code=exited, status=1/FAILURE)错误解决办法
Docker 启动失败 (code=exited, status=1/FAILURE)错误解决办法
2727 1
|
移动开发 Dart 前端开发
深度分析:React Native、Flutter、UniApp、Taro、Vue的差异
深度分析:React Native、Flutter、UniApp、Taro、Vue的差异
1147 6
|
存储 数据采集 自然语言处理
知识图谱企业图谱怎么做
随着人工智能技术的不断发展,知识图谱技术逐渐在各行各业得到了广泛应用,为各行业企业提供了强有力的数据分析手段。尤其是在金融、医疗、电商等领域,企业知识图谱技术可以帮助企业解决数据孤岛、信息孤岛等问题,实现数据整合与共享。
|
机器学习/深度学习 并行计算 算法
十分钟带你复现YOLOv8
十分钟带你复现YOLOv8
1106 0
|
SQL 存储 大数据
大数据Hive函数高阶 2
大数据Hive函数高阶
177 0
|
机器学习/深度学习 人工智能 监控
【AI 现况分析】AI 算法偏见和歧视分析
【1月更文挑战第27天】【AI 现况分析】AI 算法偏见和歧视分析
|
C# 开发者
C# 开发者技术:进程间数据共享之管道(Pipes)-异步通信版
主要类 1.NamedPipeClientStream 2.NamedPipeServerStream 解释:命名管道是一种进程间通信的方式,它允许不同进程之间在同一台机器上进行通信
1764 2
C# 开发者技术:进程间数据共享之管道(Pipes)-异步通信版