助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】

数仓事实层DWB层构建

01:项目回顾

  1. 项目中有哪些主题域?
  • 服务域:工单主题、安装主题
  • 客户域:客户事主题
  • 仓储域:物料主题
  • 运营域:工时主题
  • 市场域:工单主题
  1. 项目中有哪些核心维度?
  • 时间维度
  • 地区维度
  • 油站维度
  • 服务站点维度
  • 组织机构维度
  • 物流维度
  • 仓库维度
  • ……
  1. 行政地区维度中有哪些核心字段?
省份id  省份名称  城市id  城市名称    县区id    县区名称    乡镇id  乡镇名称
  • 定期或者按照变化,全量同步到数据仓库中
  1. 时间维度中有哪些核心字段?
年 季度    月   周   日   年的第几天 周的第几天 工作日   节假日   周日
  • 每一年提前将下一年的时间维度信息生成,增量放入数据仓库中
  1. 服务网点维度中有哪些核心字段?
服务网点id  编码  名称    省份   城市   县区    组织机构id  组织机构名称
  1. 油站维度中有哪些核心字段?
油站id  油站编码  油站名称    省份  城市  县区  乡镇    客户id  客户名称  公司id  公司名称
  1. 组织机构维度中有哪些核心字段?
工程师id 工程师名称   岗位id  岗位名称    部门id    部门名称
  1. 集中问题
  • DG连接不上:YARN的进程故障,导致ThriftServer无法运行
  • Hadoop:NameNode、DataNode、ResourceManager、NodeManager
  • Hive:Metastore、Hiveserver2
  • Spark:ThriftServer
  • 异常:ProtocolBuffer 不匹配:dim_date
  • 数据文件与表的定义是不匹配的
  • step1:检查建表语法
  • step2:文件:上传时候文件是不对的
  • 语法 + 函数 + 数据关系
  • 语法 + 函数 :计算
  • 数据关系:逻辑

02:项目目标

  • 整体目标:构建数仓中的DWB:主题事务事实表
  • 核心的主题事实的构建:SQL实现 + 主题的指标
  • 原始事务事实数据【DWD】:订单数据
o001    userid1   2021-01-01  200.00
  • 主题事务事实数据【DWB】:订单主题
o001    userid1   2021-01-01  订单总金额:200   订单总个数:1
  • 主题周期快照事实表:数据应用层【ST:维度【DWS】 + 事实指标【DWB】】
2021-01-01  订单总金额:xxxx    订单总个数:xxxx
  • 重点内容:SQL以及数据关系

03:分层回顾

  • 目标:回顾一站制造项目分层设计
  • 实施
  • ODS层 :原始数据层:101张表:AVRO
  • DWD层:明细数据层:101张表:ORC
  • DWS层:维度数据层:维度表
  • DWB层:轻度汇总层:Join + 构建基础指标
  • 小结
  • 回顾一站制造项目分层设计

04:DWB层的设计

  • 目标:掌握DWB层的设计
  • 路径
  • step1:功能
  • step2:来源
  • step3:需求
  • 实施
  • 功能:存储每个事实主题需要的事务事实数据以及轻度聚合的结果,供ST层基于DWS层进行统计聚合得到最终每个主题的指标
  • 关联:将事实主题需要的字段进行关联合并到一张事实表中,构建基于主题的事实
  • 聚合:对常用的基础指标基于细粒度实现轻度聚合
  • 来源:对DWD层的数据进行关联或者轻度聚合
  • 需求:按照一站制造的业务主题的划分需求,构建每个主题的DWB层的数据
  • 小结
  • 掌握DWB层的设计


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
6天前
|
传感器 人工智能 大数据
高科技生命体征探测器、情绪感受器以及传感器背后的大数据平台在健康监测、生命体征检测领域的设想与系统构建
本系统由健康传感器、大数据云平台和脑机接口设备组成。传感器内置生命体征感应器、全球无线定位、人脸识别摄像头等,搜集超出现有科学认知的生命体征信息。云平台整合大数据、云计算与AI,处理并传输数据至接收者大脑芯片,实现实时健康监测。脑机接口设备通过先进通讯技术,实现对健康信息的实时感知与反馈,确保身份验证与数据安全。
|
16天前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
3天前
|
SQL 监控 关系型数据库
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
本文整理自用友畅捷通数据架构师王龙强在FFA2024上的分享,介绍了公司在Flink上构建实时数仓的经验。内容涵盖业务背景、数仓建设、当前挑战、最佳实践和未来展望。随着数据量增长,公司面临数据库性能瓶颈及实时数据处理需求,通过引入Flink技术逐步解决了数据同步、链路稳定性和表结构差异等问题,并计划在未来进一步优化链路稳定性、探索湖仓一体架构以及结合AI技术推进数据资源高效利用。
241 22
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
|
20天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
19天前
|
存储 关系型数据库 BI
实时计算UniFlow:Flink+Paimon构建流批一体实时湖仓
实时计算架构中,传统湖仓架构在数据流量管控和应用场景支持上表现良好,但在实际运营中常忽略细节,导致新问题。为解决这些问题,提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式(如Paimon)和Flink CDC工具,简化开发流程,降低成本,并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table,实现了声明式ETL,优化了调度和执行模式,使用户能灵活调整新鲜度与成本。最终,UniFlow不仅提高了开发和运维效率,还提供了更实时的数据支持,满足业务决策需求。
|
19天前
|
SQL 存储 分布式计算
Hologres+Paimon构建一体化实时湖仓
Hologres 3.0全新升级,面向未来的一体化实时湖仓。它支持多种Table Format,提供湖仓存储、多模式计算、分析服务和Data+AI一体的能力。Hologres与Paimon结合,实现统一元数据管理、极速查询性能、增量消费及ETL功能。Dynamic Table支持流式、增量和全量三种刷新模式,满足不同业务需求,实现一份数据、一份SQL、一份计算的多模式刷新。该架构适用于高时效性要求的场景,也可用于成本敏感的数据共享场景。
|
1月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
2月前
|
消息中间件 人工智能 监控
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
本文由喜马拉雅直播业务与仓库建设负责人王琛撰写,介绍了喜马拉雅直播业务的数据仓库架构迭代升级。文章重点分享了基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效,通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大幅提升了运营效率与决策质量,并为未来的业务扩展和 AI 项目打下坚实基础。
254 5
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
|
2月前
|
存储 人工智能 大数据
物联网、大数据、云计算、人工智能之间的关系
物联网、大数据、云计算、人工智能之间的关系是紧密相连、相互促进的。这四者既有各自独立的技术特征,又能在不同层面上相互融合,共同推动信息技术的发展和应用。
844 0
|
2月前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
87 1

热门文章

最新文章