数据架构怎么设计?一文全面掌握数据架构设计方法论

简介: 数据架构是连接业务与IT的桥梁,核心在于回答四个问题:企业有哪些数据?叫什么?什么关系?存在哪、如何流转?它涵盖数据资产目录、标准、模型、分布四大组件,以业务对象为管理单元,推动数据统一、可信、可管、可用。

很多人一听到数据架构,第一反应是数据库设计,或者数据仓库分层。我们天天说的数据架构,到底是在架构什么?

简单来说,就是让业务说的话,IT能听懂;让IT做的系统,业务能用上。

简单说,数据架构要回答四个问题,企业有哪些数据?这些数据叫什么?它们什么关系?最后存在哪儿、怎么流转? 不讲虚的,直接上干货,今天就把数据架构设计的方法论给大家讲清楚。

一、先搞清楚数据架构到底是什么

很多企业在推数字化转型的时候,都会提到企业架构(EA)。企业架构通常包含四个子集:业务架构(BA)、数据架构(DA)、应用架构(AA)、技术架构(TA)

这四个架构不是并列关系,而是有明确的上下游逻辑。业务架构定义了企业怎么运作,数据架构承接业务架构的数据需求,应用架构依据业务对象规划功能,技术架构则依据数据模型设计存储方案。

说白了,数据架构是连接业务和IT的桥梁。它不是纯技术的事,也不是纯业务的事,它负责把业务语言翻译成IT能理解和实现的结构。

那数据架构具体包含什么?用过来人的经验告诉你,一套完整的数据架构,必须覆盖四个组件:数据资产目录、数据标准、数据模型、数据分布

image.png

二、数据架构的四大组件

1、数据资产目录

数据资产目录解决的是一个最基本的问题,企业有哪些数据,谁负责这些数据。很多企业做数据治理,数据说不清楚,责任落不下去。

数据资产目录采用分层结构来组织数据,从上到下分为五层:

  • L1 业务域:公司最顶层的数据分类,对应公司最高层面关注的业务领域,比如销售领域、供应链领域、财务领域。
  • L2 主题域:互不重叠的高层面数据分类,用于管理其下一级的业务对象,同时划定数据责任人的管辖范围。
  • L3 业务对象:这是整个目录体系的核心。业务对象是业务领域中重要的人、事、物,比如销售订单、客户合同、发货单。它是数据管理的基本单元,是业务和IT之间的关键连接点。
  • L4 逻辑数据实体:描述业务对象某种业务特征的属性集合,指导IT系统开发与系统集成。
  • L5 属性:描述所属业务对象的性质和特征,明确标准与规则,确保数据全流程可用。

image.png

其中,L3业务对象的识别是整个数据架构设计中最难、最关键的一步。一个合格的业务对象,必须满足四个特征:在企业运营和管理中不可缺少;具有唯一身份标识信息;相对独立并有属性描述;一般为主数据和事务数据,存在具体实例。

2、数据标准

数据标准解决的是语言不统一的问题。这个问题在大企业里极其普遍。

同一个字段,销售部门叫客户类型,IT系统叫Customer Type,财务系统里又是另一个叫法。各个系统各说各话,数据交互失败,业务运营受影响。你懂我意思吗?

数据标准从业务、技术、管理三个视角来定义一个属性的要求和规格。

  • 业务视角包括业务定义及用途、业务规则
  • 技术视角包括数据类型、数据长度、允许值
  • 管理视角包括业务规则责任主体、数据维护责任主体

image.png

数据标准的核心价值在于统一规则、统一定义、明确责任人、支持标准重用。建立了统一数据标准之后,任何应用系统、流程文件都应该遵守这套标准。标准变更时,业务流程给数据标准工作提供信息,应用系统也可以提供它们所使用的标准情况,整个体系形成联动。

3、数据模型

数据模型解决的是数据关系的问题,各个业务对象之间是什么关系,数据怎么组织。数据模型分三个层次:

  • 概念数据模型(CDM) :从业务角度描述各业务对象之间的关系,是对现实世界中具体人、事、物之间关系的抽象。主要用于业务沟通与对标,无范式化要求。
  • 逻辑数据模型(LDM) :描述各逻辑数据实体之间关系的数据模型,承载业务逻辑,是概念数据模型的细化设计。每个实体需列出业务属性,满足三范式要求,需确定标识符(主键)。
  • 物理数据模型(PDM) :关系型数据库能够识别的实现层数据模型,需完整涵盖逻辑数据模型所定义的业务范围,体现表和表之间的关系,包括表、字段、主键、外键等,同时需要考虑数据库特性和性能进行设计。

image.png

我一直强调,概念数据模型是数据架构规划阶段最重要的输出之一。它建立了统一的数据模型,有效整合数据,实现数据的标准化和开放共享,最终达到数据的可信、可理解、可管、可用。

4、数据分布

数据分布解决的是数据在哪里、怎么流转的问题。简单来说,数据分布是数据在业务流程和IT系统上流动的全景视图,帮助你识别数据的来龙去脉,定位数据问题的根源。

数据分布包含三个子组件:

  • 数据源:定义数据产生的IT系统源头,是业务上首次正式发布某项数据的应用系统,经过数据管理专业组织认证,作为唯一数据源头被周边系统调用。
  • 数据流:描述某一数据在应用系统中如何被创建、读取、更新、删除(CRUD),主要用于数据质量的根因分析,指导系统集成。
  • 信息链:是一个指定范围内的端到端流程,或流程中的活动间信息流的表述,包括信息被创建、读取、更新、删除的全过程。

image.png

单靠规划和人工梳理远远不够,往往需要专业的数据集成工具做支撑,承接数据源对接、数据流同步、信息链梳理可以借助FineDataLink实现,数据流转和管理更高效。

三、设计数据架构,要遵守哪些原则

1、数据按对象管理,明确数据责任

数据在业务活动中产生并记录,管理的基本单元是业务对象,而不是字段,也不是表。

为什么要强调这一点?因为很多企业的数据问题,表面上是数据质量差,根本原因是责任不清。一份数据,销售说是IT的事,IT说是业务的事,最后谁都不管。数据按对象管理,就是要把每一个业务对象的数据责任落到具体的人和部门身上。 谁的业务对象,谁就是数据Owner,负责这份数据的定义、质量和维护。

这条原则贯穿整个数据资产目录的设计,L2主题域的划分要求每个主题域有且只有一个数据责任人,L3业务对象同样需要明确责任人并正式发布确认。

2、以企业全局视角定义数据架构

数据架构不是某个部门的内部工作,它必须基于企业全局视角来建立。

数据架构的价值,恰恰在于它跨越了部门边界。 数据标准要在企业层面统一,业务对象的定义要在企业层面达成共识,数据模型要能支撑跨领域的数据流转。任何局部视角做出来的数据架构,都只能解决局部问题,无法在企业生态中真正发挥作用。

image.png

3、遵从公司数据分类管理框架

很多企业按照部门来划分数据,销售的数据归销售,财务的数据归财务。但问题是,一份客户数据,销售要用,财务要用,服务也要用,它不属于任何一个部门,它属于企业。

数据特性分类,才能真正实现数据的跨部门共享和复用。 主数据、事务数据、报表数据,各有各的管理方式和治理要求,混在一起管只会越管越乱。

4、业务对象结构化、数字化

根据业务需求,建立业务对象的结构化、数字化架构,提升业务对数据的处理和应用能力。很多企业的数据存在大量非结构化内容,备注字段里塞了关键信息,合同条款用自由文本描述,这些数据人能看懂,但系统处理不了,分析用不上。

业务对象结构化,就是要把业务运作中真正重要的信息,用明确的属性、标准的格式固定下来

5、数据服务化,同源共享

定义单一数据源,通过数据服务化,实现同源共享,保证跨流程、跨系统的数据一致。通过FineDatalink把统一的数据源封装成标准化 API,可以供各业务系统按需调用,实现数据服务化。其他所有系统需要这份数据,都从这个源头获取,而不是各自维护一份副本。

四、数据架构规划的四个步骤

数据架构规划分四个步骤:

1、规划数据资产目录 L1-L3

这是整个数据架构设计的起点。先规划L1业务域,L2主题域和L3业务对象的规划可以同步进行。

  • L1业务域的划分,需要从核心业务领域、职能管控域和数据自身的类型等方面综合考虑。如果企业有业务架构,参考业务架构,分析业务能力框架、业务流程架构,识别顶层业务能力作为业务域设计的输入;如果没有业务架构,则参考组织架构,从组织架构中分析业务范围,识别顶层业务能力。

image.png

  • L2主题域的划分,业界通用两种方法:划分法(自上而下)聚合法(自下而上) 。划分法是根据企业价值链、业务架构、业界实践等输入,对企业关键的人、事、物、地及其关系进行识别与抽象,最终通过头脑风暴与业务广泛讨论后完成主题域设计。聚合法是以识别的业务对象为基础,选取核心业务对象作为主题域,其他对象根据业务相关性归属到对应的主题域。实际项目中,划分法用得更多。
  • L3业务对象的识别是最难的部分。需要从五个维度进行分析:分析本领域业务架构和组织架构、分析主要业务场景、分析流程活动及输入输出、分析本领域现有IT系统模型、分析本领域主流软件包模型。识别出候选业务对象后,还需要经过合理性验证、完整性验证、集成性验证三轮验证,最终确定业务对象清单并明确责任人。

2、定义业务术语

业务术语定义的前提是业务对象已经确定。业务术语是对数据资产目录中业务对象在企业内的统一定义,消除歧义,为数据资产梳理提供标准的业务含义和规则。

3、设计概念数据模型

选取本领域业务对象和相关业务对象,分析业务对象之间的关系,设计概念数据模型。这一步要基于不同主题域,把该主题域下的业务对象(包含需要调用的其他主题域的业务对象)进行关联。

4、规划数据源

选取业务对象,根据概念数据模型及应用架构,规划数据源。需要从数据资产目录中选择业务对象规划数据源,基于流程架构分析业务对象在流程之间的流向,识别数据在流程上的创建点,基于应用架构分析业务对象在IT产品之间的流向,识别数据在IT产品上的创建点,最后分析数据创建点的IT系统是否符合数据源原则

image.png

五、总结

做完这一套,能带来什么?我总结了数据架构的四点核心价值

  • 厘清数据资产,落实数据责任:通过数据资产目录规划,明确企业有什么数据、谁负责,实现数据管理的责权利落地。
  • 统一数据语言,消除理解歧义:通过制定业务术语,使对数据的理解在企业层面达成一致,提高沟通效率。
  • 理解数据关系,识别业务需求:通过规划数据模型,帮助重新理解数据之间的关系,识别潜在的业务需求。
  • 支撑数据共享,提升数据质量:通过定义数据源头,实现数据的集成与共享,消除数据冗余,为数据质量的提升规划目标。

数据架构设计不是一件一次性的事,它需要随着业务的变化持续迭代。数据资产目录解决有什么和谁负责,数据标准解决叫什么和怎么定义,数据模型解决是什么关系,数据分布解决在哪里和怎么流转。 这套东西做扎实了,数据治理、数据质量、系统集成,很多问题都会迎刃而解。根子上的问题解决了,后面的事才有章可循。

相关文章
|
7天前
|
缓存 供应链 架构师
数据架构是什么?一文讲清数据架构和技术架构的区别
本文系统解析企业数字化核心框架——“4A架构”(业务、数据、应用、技术架构),阐明其严格递进的逻辑链:业务架构定方向(做什么)、数据架构转语言(数据化表达)、应用架构落功能(系统实现)、技术架构保运行(稳定支撑)。破除“重技术轻业务”误区,助企业构建贴合实际、可演进的数字化架构体系。
数据架构是什么?一文讲清数据架构和技术架构的区别
|
5天前
|
人工智能 算法 知识图谱
算法对齐还是实战突围?解构GEO优化中方法论与实践的权重博弈
在AIGC重塑信息检索的当下,GEO(生成式引擎优化)已成为品牌流量增长新基座。专家于磊提出“人性化GEO”理念,首创“两大核心+四轮驱动”方法论,融合语义对齐、EEAT原则与结构化知识图谱,兼顾算法可信度与实践适应性,推动AI搜索从技术博弈回归用户价值。(239字)
68 18
|
26天前
|
弹性计算 网络安全
阿里云服务器公网ip更换教程:免费更换及弹性公网EIP修改教程
阿里云ECS服务器支持更换公网IP:创建6小时内可免费更换3次;超时后需将固定IP转为弹性EIP,再通过换绑EIP实现。轻量应用服务器不支持换IP。操作需在ECS控制台完成,且实例须已分配公网带宽。(239字)
514 6
|
6天前
|
存储 数据采集 供应链
数据中台是什么?怎么搭建数据中台?
本文深度解析数据中台本质:非“管数据”,而是让数据“流动起来、用起来”。厘清其作为统一数据能力平台的定位,详解六大核心架构模块(采集、存储计算、治理安全、服务化、组织、性能),并给出从0到1落地四阶段路径,同时警示三大常见误区。
|
5天前
|
Java 应用服务中间件 C++
Spring Boot 打包部署,JAR vs WAR
无论选择JAR还是WAR部署方式,关键在于匹配团队的技术栈、运维能力和业务需求。Spring Boot的灵活性支持两种部署模式,为不同场景提供了合适的解决方案。
84 4
|
27天前
|
人工智能 API iOS开发
OpenClaw 阿里云/本地零基础喂饭级部署+配置免费大模型API+集成Obsidian CLI,让AI用你的知识库创作!
而Obsidian 1.12版本推出的官方CLI(命令行界面),彻底打通这一断点:AI Agent无需搬运数据,可直接调用Obsidian原生索引,实现毫秒级检索、反向链接查询、标签筛选等功能,4663个文件的知识库检索仅需0.26秒,比逐文件扫描快60倍,token消耗降低99%。本文基于实测经验,整合四大核心内容:一是2026年OpenClaw全平台部署流程(阿里云+MacOS+Linux+Windows11);二是阿里云百炼免费大模型API配置步骤;三是Obsidian CLI启用与OpenClaw联动实战;四是新手高频问题解答,所有代码可直接复制执行,无营销词汇,助力零基础用户1-2小
891 24
|
19天前
|
机器学习/深度学习 canal 人工智能
31类常见牙科结构与病变目标检测数据集(25000+张图片已标注)| YOLO训练数据集 AI视觉检测
本数据集含25000+张高质量牙科影像,覆盖龋齿、种植体、根尖病变、正畸托槽等31类结构与病变,采用YOLO标准标注格式,支持train/val/test划分,适用于YOLO、Faster R-CNN等模型训练,助力牙科AI诊断、教学与算法研发。
|
5天前
|
SQL 缓存 安全
《LangChain 智能体从浅入门到深入门:模型配置、中间件体系、装饰器钩子与 invoke 调用模式全解析部分内容指南分享》(如有错误欢迎指正!)
《LangChain 智能体从浅入门到深入门:模型配置、中间件体系、装饰器钩子与 invoke 调用模式全解析部分内容指南分享》
84 10
|
5天前
|
人工智能 安全 BI
OpenClaw(小龙虾)技能生态手册:阿里云/本地系统部署与10大高频Skills技能安装、大模型适配指南
2026年,OpenClaw(社区昵称“小龙虾”)的爆火核心在于其开放的“技能包(Skills)”生态——通过安装不同功能的技能,这个开源AI智能体可从基础对话工具,升级为覆盖办公自动化、开发协作、内容创作、团队协同的全能助手。目前社区已积累数千个技能,但质量参差不齐,新手往往陷入“选择困难”。
310 8
|
5天前
|
人工智能 机器人 API
小龙虾OpenClaw怎么部署?阿里云轻量服务器部署OpenClaw接入飞书保姆级教程
2026年,OpenClaw(原Clawdbot、Moltbot,社区昵称“小龙虾”)凭借本地优先、多通道接入、插件化扩展的特性,成为企业与个人搭建AI自动化助理的首选工具。对于零基础用户而言,**阿里云轻量应用服务器**是部署OpenClaw的最优选择——预置官方应用镜像、无需手动配置复杂环境、成本低且稳定性强,搭配飞书接入后,可实现单聊/群聊指令交互、任务自动执行、消息智能处理等能力。
142 9

热门文章

最新文章