《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(1)

简介: 《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(1)

客户案例:大淘系数据模型治理最佳实践

作者:郭进士,大淘系数仓团队

导读

本次分享题目为淘系数据模型治理,主要介绍过去一年淘系数据治理工作的一些总结。具体将围绕以下4 部分展开:


• 模型背景&问题

• 问题分析

• 治理方案

• 未来规划


一、 模型背景&问题

1. 整体情况

首先介绍一下淘系的整体数据背景。


image.png


淘系的数据中台成立至今已有7 年左右,一直未作数据治理,整体数据生成构成比为:人工创建(22%)+机器生成78%。其中活跃数据占比:9%,不规范数据占比:21%。


数据活跃以倒三角形状分布,整体分布比例为ads:dws:dwd:dim=8:2:1:1,分布还算合理。


上图中下半部分是模型的生命周期,增长和留存情况。淘系的业务还属于快速变化中,模型变化比较快。模型生命周期为25 个月,模型年增长比例30%,模型留存44%。



2. 公共层


image.png



公共层两大核心问题为:


• 首先,公共层表复用性不高。在2014 年的时候公共层还比较规范,但可持续性不强。随着时间流逝,业务增长和变化,复用性就逐年降低。因为大部分的数据是应用层做的,他们会开发自己的公共层,复用性降低,大部分都是无效表。


• 另外,公共数据表在各个团队分布不合理。这是由于数据团队多,为了满足业务开发效率,每个团队都有自己的公共表,容易出现公共表复用占比低,重复建设的场景。其中淘宝数据团队负责最多的公共数据表。



3. 应用层分析


image.png

应用层的主要问题包括:


• 第一,公共层建设不足或公共层透出不足。随着时间增长,公共层的指标不能满足ads 层的业务需要,ads 复用指标逻辑没有下层,引用cdm 层的ads 表占比逐年降低,引用ads 的ads 表占比逐年增高。


• 第二,较多的ads 表共性逻辑未下沉,统计显示超过17.63%ads 表被下游ads复用。


• 第三,跨集市依赖严重,统计显示,整体跨集市依赖占比为30%,特别是大进口和淘宝数据跨集市依赖达到了40%,影响模型的稳定性,影响了模型的下线、修改。





《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(2) https://developer.aliyun.com/article/1230769?groupCode=tech_library

相关文章
|
8月前
|
存储 人工智能 自然语言处理
又双叒叕获认可!阿里云AI Stack一体机首批通过国家评测认证
近日,阿里云AI Stack一体机通过了中国电子技术标准研究院的“云上部署DeepSeek验证测试”,成为首批通过该评测的AI大模型一体机。
937 10
|
存储 运维 DataWorks
淘系数据模型治理最佳实践
本次分享题目为淘系数据模型治理,主要介绍过去一年淘系数据治理工作的一些总结。
1994 0
|
Java 程序员 测试技术
【Qt底层之内存管理机制】Qt 对象 父子关系、运行时机制与高效编程技巧
【Qt底层之内存管理机制】Qt 对象 父子关系、运行时机制与高效编程技巧
758 2
|
SQL 消息中间件 缓存
阿里云大数据开发三面面经,已过,面试题已配答案
阿里云大数据开发三面面经,已过,面试题已配答案
1610 1
|
Linux 调度 数据中心
Linux cgroup资源隔离各个击破之 - io隔离
Linux Cgroup blkio子系统的用法. blkio子系统支持两种IO隔离策略 .1. cfq io调度器,支持按权重分配IO处理的时间片,从而达到IO调度和限制的目的,权重取值范围100-1000。通过以下两个文件进行配置。 blkio.weight
11602 0
|
JavaScript 开发者
vue3+vite+ts中的@的配置
vue3+vite+ts中的@的配置
520 0
|
测试技术 API 数据库
Flink 通过 State Processor API 实现状态的读取和写入
在 1.9 版本之前,Flink 运行时的状态对于用户来说是一个黑盒,我们是无法访问状态数据的,从 Flink-1.9 版本开始,官方提供了 State Processor API 这让用户读取和更新状态成为了可能,我们可以通过 State Processor API 很方便的查看任务的状态,还可以在任务第一次启动的时候基于历史数据做状态冷启动。从此状态对于用户来说是透明的。下面就来看一下 State Processor API 的使用。
Flink 通过 State Processor API 实现状态的读取和写入
|
数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(2)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(2)
291 0
|
运维 DataWorks 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(7)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(7)
203 0
|
DataWorks 数据可视化 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4)
260 0