文档备案控制台

开发者社区开发者学习资源库文章正文

《全链路数据治理-智能数据建模》——客户案例：大淘系数据模型治理最佳实践（4）

2023-05-26 648

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 《全链路数据治理-智能数据建模》——客户案例：大淘系数据模型治理最佳实践（4）

《全链路数据治理-智能数据建模》——客户案例：大淘系数据模型治理最佳实践（3） https://developer.aliyun.com/article/1230768?groupCode=tech_library

3. 智能建模

在数据治理中有数据规范与共建机制依然是不够的，还需要结合自动化工具来提升效率、保障规范。我们是从以下4 个方面入手的（详情可以体验DataWorks 的产品）：

• 数据体系目录结构化

• 模型设计线上化

• 打通研发流程（自动化生成简代码）

• 对接地图数据专辑

1) 数据目录体系结构化

形成数据体系目录有利于了解掌握数据，分门别类的方式降低了大家的使用成本。首先要对表命名做一些管控，我们做了可视化的表命名检测器，来确保规范性。另外，淘系不是一个单空间的数据体系，因此要解决跨多个空间的复杂数据体系的统一建模问题。

2) 模型设计线上化

改变模型设计方式，由线下设计迁移到线上，通过一些自动化工具，提升效率，保

证规范。

《全链路数据治理-智能数据建模》——客户案例：大淘系数据模型治理最佳实践（5） https://developer.aliyun.com/article/1230766?groupCode=tech_library

文章标签：

数据建模

数据可视化

定位技术

DataWorks

开发工程师

目录

相关文章

柯广

|

机器学习/深度学习存储数据采集

数仓建模—OneID

这个和上面的更新问题有点像，上面更新问题我们可以保证一个自然人的OneID不发生变化，但是选择问题会导致发生变化，但是这个问题是图计算中无法避免的，我们举个例子，假设我们有用户的两个ID(A_ID,C_ID)，但是这两个ID 在当前是没有办法打通的，所以我们就会为这个两个ID 生成两个OneID,也就是(A_OneID,B_OneID)，所以这个时候我们知道因为ID Mapping 不上，所以我们认为这两个ID 是两个人。

柯广

5045 1 4

兀码

|

分布式计算大数据数据处理

浅谈几个经典大数据处理框架

【6月更文挑战第15天】本文介绍企业如何在数据洪流中保持竞争力需借助可扩展平台和数据策略。数据管道整合多元数据源，便于分析和流转。Kappa架构专注于实时处理（如通过Kafka、Spark Streaming），适合实时响应场景；Lambda架构结合批处理与实时处理（如Spark、Hadoop与Flink），平衡实时性和批处理，易于开发和维护。Apache Beam提供统一模型，适用于流处理和批处理，提升代码复用和效率。这两种架构满足现代应用对数据一致、性能和灵活性的需求。

兀码

1703 3 3

灵杰开发者

|

SQL 存储 API

Flink Materialized Table：构建流批一体 ETL

本文整理自阿里云智能集团 Apache Flink Committer 刘大龙老师在2024FFA流批一体论坛的分享，涵盖三部分内容：数据工程师用户故事、Materialized Table 构建流批一体 ETL 及 Demo。文章通过案例分析传统 Lambda 架构的挑战，介绍了 Materialized Table 如何简化流批处理，提供统一 API 和声明式 ETL，实现高效的数据处理和维护。最后展示了基于 Flink 和 Paimon 的实际演示，帮助用户更好地理解和应用这一技术。

灵杰开发者

1081 7 7

Flink Materialized Table：构建流批一体 ETL

131王

|

Cloud Native Devops 持续交付

云原生架构的演进与实践

本文深入探讨了云原生架构的核心概念、技术组件及其在现代软件开发中的应用。通过分析容器化、微服务、持续集成/持续部署（CI/CD）等关键技术，揭示了这些技术如何共同促进应用程序的灵活性、可扩展性和高可用性。文章还讨论了云原生架构实施过程中面临的挑战和最佳实践，旨在为开发者和企业提供一套实用的指导方针，以便更有效地利用云计算资源，加速数字化转型的步伐。

131王

449 5 5

永恒云

|

数据采集算法数据可视化

阿里云百炼开发者评测

阿里云百炼是一站式大模型开发平台，具有以下特点：知识检索应用：搭建智能问答助手需经历数据准备、知识库建立、应用创建与配置、测试与优化四步，存在数据质量、索引构建、问答效果调优等困难，建议加强数据预处理、优化索引构建机制并加强产品支持和社区建设。模型训练：通过数据准备、调优等操作提升模型问答效果，控制台操作指引清晰，但可增加更多行业模板并优化模型训练界面。流程管理功能：通过自定义业务流程对接智能体应用满足场景需求，使用效果较好，但存在部分参数设置不明确的问题，建议预制系统模板方便用户学习。整体上，百炼功能全面，但在细节和用户体验方面有待改进。

永恒云

849 1 1

六月暴雪飞梨花

|

Oracle 关系型数据库数据挖掘

Oracle｜内置函数之字符串函数

【7月更文挑战第6天】

六月暴雪飞梨花

652 4 4

像教授

|

算法网络安全数据安全/隐私保护

压榨SCP传输速度

像教授

6086 0 0

游客a2bbytkdfdyn2

|

机器学习/深度学习 SQL 人工智能

ID-Mapping在心动公司探索实践

文 / 蔡圣哲王沛戴健范建文王兵鹏

游客a2bbytkdfdyn2

1596 1 1

ID-Mapping在心动公司探索实践

开发工程师

|

存储运维数据建模

《全链路数据治理-智能数据建模》——客户案例：大淘系数据模型治理最佳实践（3）

《全链路数据治理-智能数据建模》——客户案例：大淘系数据模型治理最佳实践（3）

开发工程师

444 0 0

开发者学习资源库

热门文章

最新文章

阿里云域名注册入口

十年磨一剑，阿里巴巴企业级数据管理平台：iDB

Promise实现原理（附源码）

ES6之Object.assign()用法，Object.assign()到底是浅拷贝还是深拷贝？

小红书如何实现高效推荐？解密背后的大数据计算平台架构

JAVA实现的支付宝扫描二维码支付

从0开始在阿里云上搭建基于通义千问的钉钉智能问答机器人

【最全最详细】publiccms使用教程

【编译打包】drbd 8.4.2

突破 TTFB 瓶颈：企业官网重构中的 WordPress 数据库与云端缓存架构优化

边缘安全加速（ESA）技术解析与实战部署指南

Tair 替换 Redis 实战：企业级缓存升级的性能对比与零停机迁移方案

DeepSeek-V4-Pro快速接入教程：使用阿里云GPU服务器全流程

阿里云 Qoder CN 官方安装文档：独立 IDE 客户端、全系列 JetBrains 插件、VSCode 插件分步安装 + 登录配置

Qoder CN 怎么安装？独立 IDE 和 VS/JetBrains 插件两种方式

可回收垃圾目标检测数据集：5类别、13,000张图像 | 目标检测

【Azure Container App】Key Vault的Secret修改导致Container App重启，是否有办法规避呢？

4D Gaussian Splatting 是怎么工作的：从规范 Gaussian 到形变场的原理拆解

基于YOLO11的光伏电池板缺陷检测：从数据集构建到云上训练实践

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！