助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】

数仓事实层DWB层构建

01:项目回顾

  1. 项目中有哪些主题域?
  • 服务域:工单主题、安装主题
  • 客户域:客户事主题
  • 仓储域:物料主题
  • 运营域:工时主题
  • 市场域:工单主题
  1. 项目中有哪些核心维度?
  • 时间维度
  • 地区维度
  • 油站维度
  • 服务站点维度
  • 组织机构维度
  • 物流维度
  • 仓库维度
  • ……
  1. 行政地区维度中有哪些核心字段?
省份id  省份名称  城市id  城市名称    县区id    县区名称    乡镇id  乡镇名称
  • 定期或者按照变化,全量同步到数据仓库中
  1. 时间维度中有哪些核心字段?
年 季度    月   周   日   年的第几天 周的第几天 工作日   节假日   周日
  • 每一年提前将下一年的时间维度信息生成,增量放入数据仓库中
  1. 服务网点维度中有哪些核心字段?
服务网点id  编码  名称    省份   城市   县区    组织机构id  组织机构名称
  1. 油站维度中有哪些核心字段?
油站id  油站编码  油站名称    省份  城市  县区  乡镇    客户id  客户名称  公司id  公司名称
  1. 组织机构维度中有哪些核心字段?
工程师id 工程师名称   岗位id  岗位名称    部门id    部门名称
  1. 集中问题
  • DG连接不上:YARN的进程故障,导致ThriftServer无法运行
  • Hadoop:NameNode、DataNode、ResourceManager、NodeManager
  • Hive:Metastore、Hiveserver2
  • Spark:ThriftServer
  • 异常:ProtocolBuffer 不匹配:dim_date
  • 数据文件与表的定义是不匹配的
  • step1:检查建表语法
  • step2:文件:上传时候文件是不对的
  • 语法 + 函数 + 数据关系
  • 语法 + 函数 :计算
  • 数据关系:逻辑

02:项目目标

  • 整体目标:构建数仓中的DWB:主题事务事实表
  • 核心的主题事实的构建:SQL实现 + 主题的指标
  • 原始事务事实数据【DWD】:订单数据
o001    userid1   2021-01-01  200.00
  • 主题事务事实数据【DWB】:订单主题
o001    userid1   2021-01-01  订单总金额:200   订单总个数:1
  • 主题周期快照事实表:数据应用层【ST:维度【DWS】 + 事实指标【DWB】】
2021-01-01  订单总金额:xxxx    订单总个数:xxxx
  • 重点内容:SQL以及数据关系

03:分层回顾

  • 目标:回顾一站制造项目分层设计
  • 实施
  • ODS层 :原始数据层:101张表:AVRO
  • DWD层:明细数据层:101张表:ORC
  • DWS层:维度数据层:维度表
  • DWB层:轻度汇总层:Join + 构建基础指标
  • 小结
  • 回顾一站制造项目分层设计

04:DWB层的设计

  • 目标:掌握DWB层的设计
  • 路径
  • step1:功能
  • step2:来源
  • step3:需求
  • 实施
  • 功能:存储每个事实主题需要的事务事实数据以及轻度聚合的结果,供ST层基于DWS层进行统计聚合得到最终每个主题的指标
  • 关联:将事实主题需要的字段进行关联合并到一张事实表中,构建基于主题的事实
  • 聚合:对常用的基础指标基于细粒度实现轻度聚合
  • 来源:对DWD层的数据进行关联或者轻度聚合
  • 需求:按照一站制造的业务主题的划分需求,构建每个主题的DWB层的数据
  • 小结
  • 掌握DWB层的设计


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
30天前
|
消息中间件 分布式计算 大数据
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
56 5
|
30天前
|
存储 SQL 分布式计算
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
52 3
|
7天前
|
存储 人工智能 大数据
物联网、大数据、云计算、人工智能之间的关系
物联网、大数据、云计算、人工智能之间的关系是紧密相连、相互促进的。这四者既有各自独立的技术特征,又能在不同层面上相互融合,共同推动信息技术的发展和应用。
76 0
|
30天前
|
Java 大数据 数据库连接
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
27 2
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
|
10天前
|
机器学习/深度学习 人工智能 物联网
深度学习:物联网大数据洞察中的人工智能
深度学习:物联网大数据洞察中的人工智能
|
10天前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
41 1
|
6天前
|
传感器 监控 安全
创新无限:物联网技术在智慧城市构建中的前沿探索
【10月更文挑战第29天】在这个信息爆炸的时代,物联网(IoT)技术正重塑我们对城市的认知。智慧城市已从科幻走向现实,物联网通过连接各种设备和传感器,收集、分析数据,提升城市运行效率和居民生活质量。从智慧城管、智能交通、智慧水务到智能电网,物联网的应用正逐步实现城市的智能化、互联化和可持续发展。
19 0
|
30天前
|
SQL 分布式计算 大数据
大数据-160 Apache Kylin 构建Cube 按照日期构建Cube 详细记录
大数据-160 Apache Kylin 构建Cube 按照日期构建Cube 详细记录
36 2
|
30天前
|
SQL 消息中间件 大数据
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
45 1
|
30天前
|
SQL 大数据 Apache
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
72 1