开发者学堂课程【新电商大数据平台2020最新课程:电商项目之 DW 层分析讲解】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/640/detail/10521
电商项目之 DW 层分析讲解
目录
一、 主题划分
二、 概述
三、明细粒度事实层(DWD)
DW 层里面分为几个表,按照不同的行为分析和数据分析,确定不同的主题,根据主题创建对应主题表,形成 DW 主题层,也是明细层,按照明细规则划分数据。
一、 主题划分
根据电商数仓里的数据来构成主题。
在不同的业务中,数仓建设都会涉及到几种类型的数据通用行为数据、业务强相关的数据、通用行为衍生出的行为数据以及其它不易划分的数据:
1、通用行为数据主题:
即各业务场景都容易出现行为,比如用户行为日志中的曝光、点击和下载,搜索等,归位一类数据。
2、业务行为数据主题:
主要是指和业务强相关的行为,比如说电商下单业务,视频业务中有播放行为,根据业务数据划分主题。
3、衍生行为数据主题:
主要是指非用户原始的行为,比如说留存,本身是由用户活跃来描述的。
4、其它行为数据主题:
有一些多主题交叉的数据,比如跨业务和行为的阅读带来的购买行为数据主题
电商项目中所涉及的主题包括(参考下面的数仓结构图):
【用户主题】>衍生行为数据主题(更多的)
【交易主题】>业务行为数据主题
【营销活动主题】>业务行为数据主题
【事件(行为日志)主题】>通用行为数据主题
这是本次项目划分的过程,上面是划分的规则。
二、概述
1、DWD 与 DWS
公共汇总粒度事实层(DWS)和明细粒度事实层(DWD)的事实表作为数据仓库维度建模的核心,以专业数据来表达所有的本地建模都是围绕这个开展,需索绕业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包括引用的度和与业务过程有关的度量,度量通常为数值型数据,作为事实逻错表的事实。事实属性则作为事实逻表的描述信息,关联维度则将事实属性中的外键字段关联对应维度,这是建模的核心。
示例:
用户产品浏览主题
create external table if not exists dwd nshop. dwd_nshop actlog product_view(
user_ id string comment用户id',
os string comment手机系统
os version string comment+手机系统版本
manufacturer string comment手机制造商,
carrier string comment电信运营商
network type string comment网络类型
areacode string comment地区编码
target id string comment产品I'
ct higint comment产生时间
一定依赖用户行为数据,用户产生的相关日志下沉到 DWD,对应的主题表。
有一些度量,看上面的字段就可以,比如说用户快递,像手机系统,手机系统版本,手机制造商等,谢谢都可以叫维度,里面 ID 是和其他表关联的维度。这里面没有聚合操作,没有度量值。
1、数据依赖
2、ODS 层的用户行为日志(odsnshop.u(qdsnsh0pa0d5nshoP《O1U5PnCLO)
3、哪些维度(包括关联其他主题维度)、度量?
维度:
1以用户相关的维度user_id、osos_version manufacturer 等等】
2关联相关主题维度【target_id】
3度量值聚合操作(sum, count 等等)
维表列:
时间、地区、产品维度等这类数据往往应用在dm层进行统计报表操作中处理或进行多维计算时作为多维组合方案使用,
如 groupingsets(areacode地区bdp_day 时间维度、os 操作系统等等)
一般把时间、地区、产品维度等这类数据整合起来,做一些多维分析。
这是创建明细的基本概念,按照不同的维度划分主题,同时按照数据类型创造主题,需要的字段取决于后期业务依赖。
三、明细粒度事实层(DWD)
1.DWD 是什么?
明细粒度事实层以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表,可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,即宽表化处理明细粒度事实层(DWD)通常分为三种:事务事实表、周期快照事实表和累积快照事实表。
2.DWD 中的信息有什么
事实表中一条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表述:一种是维度属性组合所表示的细节程度,一种是所表示的具体业务含义。
(1) 作为度量务过程的事实,通常为整型或浮点型的十进制数值,有可加性、半可加性和不可加性三种类型:
(2) 可加性事实是指可以按与事实表关联的任意维度进行汇总示例:交易订单记录表中的【用户 ID】可以进行 countdistinct count 汇总。
(2)半可加性事实只能按照特定维度汇总不能对所有维度汇总
示例:
库存可以按照地点和商品进行汇总,而按时间维度把一年中每个月的库存累加则毫无意义。
交易订单记录表中的【时间维度、地区维度按照这类“自然属性”的维度进行统计,在主题层没有实际意义,而偏统计报表类计算更多在D 层进行汇总,或者在 DS 层往往是以某个主题数据做核心,与其产生关系的其他主题数据作为度量值来进行统计汇总的。
(3)完全不可加性
示例:转化率、比率型等事实
假如这个表统计各种的数量值,就是事实表,一般叫做明细层,创建各种主题率。