数据资产目录建设之数据分类全解(上)

简介: 数据资产目录建设之数据分类全解(上)

数据治理“洗澡论”

其实他们之前做过数据一轮数据资产盘点,做了一个分类,也挂到系统上了,但是后来就没有后来了。治理做一半,等于啥也没干。我之前在群里开了一个玩笑,数据治理这种事情,就跟洗澡一样,首先得勤快点洗。一天不洗澡,身上就臭了。另外,标准也很重要,南方和北方对“洗干净”的定义不一样。南方洗澡的时候,只要泡泡冲干净,就算洗干净了。北方洗澡的时候,身上不搓下来二斤泥都不叫洗干净了。

还有,洗澡得全面,有些人洗澡不洗头还说得过去,但是洗澡只洗左胳膊,这算咋回事?最后,洗完澡得维护,水得擦干啊,衣服得换干净的,不要到外面踩泥巴,要讲卫生啊!但是很多人认为数据治理就是弄个项目就完事的。这就像是中世纪的欧洲,一生就洗三次澡,出生一次,结婚一次,入殓一次。其他时间都靠香水度日所以数据治理不是立一个项目就完事的,要么在家弄个浴室,要么定期去外面大众浴室,条件好可以再叫个搓澡的师傅,上个奶盐。

数据分类原则

这不,跟长时间没洗澡一样,长“数据虱子”了,各种指标爆炸数据质量低下等问题让数据部门的彭友非常难受,所以他们又要开始做数据治理了。首先要做的就是数据资产盘点,建立数据资产目录。盘点的时候好说,就是各种整理呗。但是到建立数据资产目录的时候就傻眼了,他们先是按照自己的理解整了一版目录结构。但是在把数据资产装进去的时候就发现有些数据资源不属于现有的任何一个分类,然后又来调整,但是一会儿又发现有些数据资源放这里也行,放在那里也行,这就蒙圈了

这是因为没有把握住数据分类的原则。具体可以分为:

1、全量:能够容纳组织全量数据资产;

2、系统:数据分类必须系统化、体系化,层次清晰、逻辑鲜明,形成具有隶属和并列关系的分类体系,展示数据之间的联系和区别;

3、规范:目录名称要能准确的表达该类目的实际内涵和外延,在整个目录中保持规范;

4、唯一:目录体系内,各自界限分明,尽可能保证不重复、不交叉、相互独立且唯一;
5、稳定可扩展:建立的数据分类要保持一定的稳定性,保持一段时间内的可持续使用,并保留可扩展的余地。

数据分类方法

数据分类其实来源于信息分类法,一共有三种:线分类法、面分类法、混合分类法。线分类法:简单来说,就是将数据按选定的若干个属性或特征,逐次分为若干层级, 每个层级又分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。同层级类别互不重复,互不交叉。线分类法适用于针对一个类别只选取单一分类维度进行分类的场景。最典型的线分类法就是生物分类系统,有一个学科专门研究这个,叫“生物分类学”。

你仔细看看上面的图,就知道线分类法有很大的局限:一个分类只能描述单一的逻辑复杂一点就没法弄了,比如集团中有好几个不同的业态...面分类法:就是把数据依据各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。还可以将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。

比如服装,有材料、颜色、款式等多个面,可以自由搭配组成任意内容。下面这个例子则是螺丝的面分类法,可以分为材料、直径、钉头、表面处理:

面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别同时选取多个分类维度进行分类的场景。

混合分类法:顾名思义,就是线分类+面分类结合咯。一般来说,还是得以某一个方法为主,另外一个为辅。这下就能集合两种方式的优点,规避它们各自的缺点了。比如用面分类法解决多业态的问题,再用线分类法细化;或者用线分类法搞定前面几层,再用面分类法进行细化。

数据分类的层次关系

会后,彭友还找我要PPT。讲真,不是老彭我小气,关键是我还真没有专门为这个事情做一个PPT。因为这些内容其实早就有很全的指导了,比如《证券期货数据分类分级指南》里就很全:

这张图把业务、数据和数据表现形态之间的关系表现的很清楚。我们需要从业务、数据和形态三个视角对数据分类进行理解。其中,最先要了解的,就是业务。业务可以按条线和子类进行拆分,就算是集团公司,也能拆的很清晰。然后从业务角度,向下再进行拆解,从数据角度进行分类。所以数据角度的第一个层级应该是业务主题域,而不是纯粹的数据角度

数据分类应该从主题域不断细分,直到最细颗粒度。一般来说,在数据资产目录里,是要能看到详细的样例数据,并能申请API访问权限的。在这个时候,我们需要对数据进行分级,便于进行权限分配和安全管控。

最下面,其实不是数据的分类,而是数据的展示形态。数据最终是要在系统中用业务流程、数据查询、报表分析、大屏展示等各种形态利用起来的。

小结

数据分类分级看上去很简单,但是其中的道道还是蛮多的,一旦没弄好,会影响后续很多的事情。也不知道你对此感不感兴趣啊?

相关文章
|
7月前
|
存储 数据采集 SQL
数据平台问题之数据资产管理混乱的问题如何解决
数据平台问题之数据资产管理混乱的问题如何解决
|
9月前
|
数据采集 人工智能 供应链
想要解决数据治理的难题吗?首先,摒弃无稽之谈
想要解决数据治理的难题吗?首先,摒弃无稽之谈
|
10月前
|
数据采集 监控 前端开发
数据治理必读系列(二)丨3步提升企业数据标准化程度
数据治理必读系列(二)丨3步提升企业数据标准化程度
272 0
|
运维 安全 网络安全
数据资产目录建设之数据分类全解(下)
数据资产目录建设之数据分类全解(下)
|
人工智能 安全 架构师
【数据治理】引导您制定有效数据治理计划的 7 个步骤
【数据治理】引导您制定有效数据治理计划的 7 个步骤
|
数据采集 传感器 架构师
谈谈数据资产管理晓知识
数据是组织的一种战略性商业资产,也是组织拥有的最有价值的资源之一。但它的价值取决于质量、相关性和范围。
谈谈数据资产管理晓知识
|
存储 监控 安全
数据人必知!认识数据“四种”分类“五大”价值,帮企业找到核心数据
在大数据时代,企业首先要做的是收集大量数据,但收集数据并非仅是把收集过来的数据放到数据存储平台里面那么简单,更重要的是对数据进行分类、加工及管理。
数据人必知!认识数据“四种”分类“五大”价值,帮企业找到核心数据
|
数据采集 运维 算法
谈谈物料数据质量问题和提升路径
本文所谈的物料是指企业中所有物资、产品和服务的总和。从某种意义上说,物资是工业企业所占价值最大的一部分。
谈谈物料数据质量问题和提升路径
|
数据采集 存储 SQL
【思考】数据资产管理痛点以及解决思路
文章中所有内容均为本人从事大数据行业以来,所遇到的数据开发-数据仓库-数据管理方向所暴露出来的通用性问题以及思考后总结的一些解决思路,无关具体行业与业务。 希望自己的思考可以给各位同仁提供一些微不足道的参考。 一、痛点总结 1.1 元数据层面 目前很多公司亦或是不重视或是不存在元数据层面的管理,殊不知作为大数据中老生常谈的内容,其存在的必要性以及其对数据管理的有效性。 元数据作为记录数据的数据,随着公司数据资产的增加,需要对其进行有效的管理,从而能够快速获取到数据的相关信息并进行使用。包括数据在哪里.
786 0
【思考】数据资产管理痛点以及解决思路
|
存储 机器学习/深度学习 大数据
带你读《数据资产》第二章数据资产的相关概念 2.5 相关概念分析
《数据资产》第二章数据资产的相关概念 2.5 相关概念分析
带你读《数据资产》第二章数据资产的相关概念  2.5	相关概念分析