根据实时数据处理架构和数据仓库分层的设计,面向零售业务的实时数仓可以分为以下哪几个流程?
首先是构建 ODS 层数据,实时采集客户信息表、业务流水表、渠道表等相关基础表的 CDC 日志。每个 业务库的数据表对应接入到一个 Kafka 的 topic 中建立实时数仓的 ODS 层; • 其次是 DWD 层的数据建模,创建 Flink 任务消费 ODS 层的 Kafka 消息,进行数据清洗,过滤、脱敏、 关联转换等处理。同时以客户账户粒度进行数据合流,借助离线维表进行扩围操作,以获得账户粒度的 明细表,实现 DWD 层的建立; • 之后是 DWS 层的数据建模,基于 DWD 层的数据进行汇总,通过分析业务需求,将 DWD 层的数据按照 主题进行划分,汇总出渠道服务主题宽表、业务部运营主题宽表、交易产品主题宽表等公共指标宽表, 建立 DWS 层; • 最后根据实际业务需求,计算业务指标建立 ADS 层。对于一部分用户账户粒度的业务指标,可通过 DWD 层的明细直接计算得到,部分粗粒度的业务指标比如 APP 渠道服务客户人数、投顾产品阅读人数等, 可以通过 DWS 层计算获得。最终计算结果接入到数据网关将数据统一提供给下游系统或通过 BI 系统展 示。
以上内容摘自《Apache Flink 案例集(2022版)》电子书,点击https://developer.aliyun.com/ebook/download/7718 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。