实时数仓分为四层: • 第一层是 ODS 层,数据经过 Flink 到 ODS 层后会关联一张原始表,这个表是和数据源一一对应的,然后会有一个视图表对原始数据进行简单的清洗加工;
• 数据经过 Flink 下发到 DWD 层,DWD 层是基于主题域进行划分的,我们现在划分为用户数据域、营销数据域、信贷数据域和保险数据域等;另外还有一部分是 DIM 层,包含用户相关、产品相关和渠道相关等维表数据,DIM 层的数据会保存到 HBase 中;
• 经过 DWD 层的数据清洗之后,数据下发到 DWS 层,DWS 层会对数据进行整合汇总,一般会有指标宽表和多维明细宽表;
• 最后这些数据会进入 ADS 层,服务具体多样的数据应用。这一层包含多样的 OLAP 数据存储引擎,包括使用 ClickHouse 作为大盘实时报表的存储引擎,使用HBase 和阿里云的 TableStore 为用户标签和特征工程提供数据存储服务,以及使用ES服务实时监控场景。
以上内容摘自《Apache Flink 案例集(2022版)》电子书,点击https://developer.aliyun.com/ebook/download/7718 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。