《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(1)

简介: 《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(1)

客户案例:大淘系数据模型治理最佳实践

作者:郭进士,大淘系数仓团队

导读

本次分享题目为淘系数据模型治理,主要介绍过去一年淘系数据治理工作的一些总结。具体将围绕以下4 部分展开:


• 模型背景&问题

• 问题分析

• 治理方案

• 未来规划


一、 模型背景&问题

1. 整体情况

首先介绍一下淘系的整体数据背景。


image.png


淘系的数据中台成立至今已有7 年左右,一直未作数据治理,整体数据生成构成比为:人工创建(22%)+机器生成78%。其中活跃数据占比:9%,不规范数据占比:21%。


数据活跃以倒三角形状分布,整体分布比例为ads:dws:dwd:dim=8:2:1:1,分布还算合理。


上图中下半部分是模型的生命周期,增长和留存情况。淘系的业务还属于快速变化中,模型变化比较快。模型生命周期为25 个月,模型年增长比例30%,模型留存44%。



2. 公共层


image.png



公共层两大核心问题为:


• 首先,公共层表复用性不高。在2014 年的时候公共层还比较规范,但可持续性不强。随着时间流逝,业务增长和变化,复用性就逐年降低。因为大部分的数据是应用层做的,他们会开发自己的公共层,复用性降低,大部分都是无效表。


• 另外,公共数据表在各个团队分布不合理。这是由于数据团队多,为了满足业务开发效率,每个团队都有自己的公共表,容易出现公共表复用占比低,重复建设的场景。其中淘宝数据团队负责最多的公共数据表。



3. 应用层分析


image.png

应用层的主要问题包括:


• 第一,公共层建设不足或公共层透出不足。随着时间增长,公共层的指标不能满足ads 层的业务需要,ads 复用指标逻辑没有下层,引用cdm 层的ads 表占比逐年降低,引用ads 的ads 表占比逐年增高。


• 第二,较多的ads 表共性逻辑未下沉,统计显示超过17.63%ads 表被下游ads复用。


• 第三,跨集市依赖严重,统计显示,整体跨集市依赖占比为30%,特别是大进口和淘宝数据跨集市依赖达到了40%,影响模型的稳定性,影响了模型的下线、修改。





《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(2) https://developer.aliyun.com/article/1230769?groupCode=tech_library

相关文章
|
Java 数据库连接 Go
如何在Spring Boot应用中使用Nacos实现动态更新数据源
如何在Spring Boot应用中使用Nacos实现动态更新数据源
1340 0
|
小程序 Linux 区块链
Python PyInstaller 打包成 Win、Mac 应用程序(app / exe)
Python PyInstaller 打包成 Win、Mac 应用程序(app / exe)
7120 0
|
传感器 人工智能 自然语言处理
火热邀测!DataWorks数据集成支持大模型AI处理
阿里云DataWorks数据集成新增大模型AI处理功能,支持在数据同步中无缝调用通义千问等AI模型,实现文本翻译、情感分析、摘要生成等功能。适用于电商客服、智能汽车、供应链、医疗、金融、法律及教育等多个场景,大幅提升数据处理效率与洞察深度。用户可通过自然语言配置,快速完成高级数据分析与处理,无需额外部署调试。立即申请测试资格,体验智能化数据处理!
1623 4
火热邀测!DataWorks数据集成支持大模型AI处理
|
9月前
|
API
免费的股票实时行情API接口(散户量化)
散户量化,股票下单交易API接口,免费实时行情API接口
5008 0
|
机器学习/深度学习 算法 计算机视觉
[YOLOv8/YOLOv7/YOLOv5系列算法改进NO.5]改进特征融合网络PANET为BIFPN(更新添加小目标检测层yaml)
本文介绍了改进YOLOv5以解决处理复杂背景时可能出现的错漏检问题。
714 5
|
存储 运维 DataWorks
淘系数据模型治理最佳实践
本次分享题目为淘系数据模型治理,主要介绍过去一年淘系数据治理工作的一些总结。
2149 0
|
SQL 消息中间件 缓存
阿里云大数据开发三面面经,已过,面试题已配答案
阿里云大数据开发三面面经,已过,面试题已配答案
1766 1
|
JSON JavaScript 前端开发
【2023-11-01】一款基于 pdf.js 的 PDF 批注注释插件库(纯JS、高亮、画笔、多边形、历史记录)
基于纯 JavaScript 和 PDF.js 做的一款 PDF 批注拓展插件-PDFMaster,一款仍能兼容支持IE 11的PDF批注插件,界面美观功能强大,有无开发经验都可以快速简单快速使用。
698 0
【2023-11-01】一款基于 pdf.js 的 PDF 批注注释插件库(纯JS、高亮、画笔、多边形、历史记录)
|
机器学习/深度学习 消息中间件 缓存
一文理解Flink 水位线(Flink Watermark)
一文理解Flink 水位线(Flink Watermark)
一文理解Flink 水位线(Flink Watermark)
|
机器学习/深度学习 SQL 人工智能
ID-Mapping在心动公司探索实践
文 / 蔡圣哲 王沛 戴健 范建文 王兵鹏
ID-Mapping在心动公司探索实践

热门文章

最新文章