先分类还是先分级?
一般来说,数据分类、分级会在两个领域出现,一个是数据资产目录建设,一个是数据安全管控。数据资产目录这边偏分类多一些,因为数据资产太多了,需要归归堆,没有一个树形的目录体系,根本没办法查找。当然,树形目录的弊端也很多,比如查找困难等。所以现在又出现了多分类、标签等方法,辅助进行数据资源的检索。数据安全管控的方式一般是针对不同级别的数据,施行对应的管控手段,限制人数、可访问范围,所以安全这边主要是数据的分级。比如《工业数据分类分级指南(试行)》把数据分为一、二、三级,也就是一般、重要、核心数据。《基础电信企业数据分类分级方法》中按重要敏感程度,把数据分为第四级、第三级、第二级、第一级,大概意思就是高敏感、敏感、不敏感、公开。所以,分类和分级,是两个工作。根据其目的,侧重点不一样,先做那个,取决于当前主推那个任务。从老彭参与的项目上来看,一般来说,先做数据盘点,整理数据资产目录的较多。也就是先进行数据分类的情况较多。
数据分类案例
上篇讲到,数据分类主要有线分类法、面分类法和混合分类法三种。但是线分法和面分法都有其局限性,所以我们常见的数据分类,还是采用折中的混合分类法较多。同时,数据分类跟行业属性、业务也有非常大的关系。以政务数据分类为例,《贵州省政务数据分类分级指南》中建议政务数据可以采用主题分类、行业分类和服务分类三种分类方法。
本标准采用多维度和线分类法相结合的方法,在主题、行业和服务三个维度对贵州省政府数据进行 分类,对于每个维度采用线分类法将其分为大类、中类和小类三级。业务部门可以根据业务需要,对数据分类进行小类之后的细分。对小类的细分,各部门可以根据业务数据的性质、功能、技术手段等一系 列问题进行扩展细分。本标准采用面分类法将政府数据按照多个维度进行关键词的标签构造。
按主题分类的方法,可将贵州省政府数据分为以下大类:综合政务、经济管理、国土资源、能源、工业、交通、邮政、信息产业、城乡建设、环境保护、农业、水利、财政、商业、贸易、旅游、服务业、气象、水文、测绘、地震、对外事务、政法、监察、科技、教育、文化、卫生、体育、军事、国防、劳动、人事、民政、社区、文秘、行政、综合党团。按行业分类的方法,则将贵州省政府数据分为以下大类:农、林、牧、渔业;采矿业;制造业;电力、热力、燃气及水生产和供应业;建筑业;批发和零售业;交通运输、仓储和邮政业;住宿和餐饮业;信息传输、软件和信息技术服务业;金融业;房地产业;租赁和商务服务业;科学研究和技术服务业;水利、环境和公共设施管理业;居民服务、修理和其他服务业;教育;卫生和社会工作;文化、体育和娱乐业;公共管理、社会保障和社会组织;国际组织。以电信数据分类为例,《基础电信数据分类分级方法》中主要采用线分类的方法,对电信数据进行完整的分类。
根据基础电信企业业务运营特点和企业内部管理方法,收集企业内所有部门的数据资源,梳理所有数据资源。按照线分类法,按照业务属性(或特征),将基础电信企业数据分为若干数据大类,然后按照大类内部的数据隶属逻辑关系,将每个大类的数据分为若干层级,每个层级分为若干子类,同一分支的同层级子类之间构成并列关系,不同层级子类之间构成隶属关系。所有数据类及数据子类构成数据资源目录树,如图1所示。目录树的所有叶子节点是最小数据类。最小数据类是指属性(或特征)相同或 相似的一组数据。
电信的数据分类如下:
用户相关数据:
1.用户身份相关数据(用户身份相关数据、用户网络身份相关数据)2.用户服务内容数据3.用户服务衍生数据(用户服务使用数据、设备信息)
4.用户统计分析类数据(用户使用习惯和行为分析数据、用户上网行为相关统计分析数据)
企业自身相关数据:
1.网络与系统的建设与运行维护类数据(建设类数据、网络与系统资源类数据、网络与系统运维类数据、网络安全管理类)2.业务运营类数据(业务运营服务数据、公开业务运营服务数据)3.企业管理数据(发展战略与重大决策、业务发展、技术研发类、运行管理类、生产经营类、综合管理类)4.其他数据(合作方提供数据)以证券数据分类为例,《证券期货数据分类分级指引》中主要采用线分类的方法,按照业务条线,对证券数据进行完整的分类。证券的数据分类如下:(以数据汇集型会管单位数据分类为例)1.交易(交易管理、结算管理、行情管理、发行管理、会员管理/机构管理、投资者管理、产品管理)2.监管(监察与评价管理、研究报告、信息披露管理)3.其他(标准化管理、业务管理、技术管理、综合管理)
数据分类方法论
其实上篇已经把数据分类的基本方法论说过一遍了。有些彭友觉得不太解渴。今天我们就好好学习一下《证券期货数据分类分级指引》中的内容。可参考性还是很大的。首先放一张体系图:
这张图上篇已经讲过了,这里就不复述一遍了。《指引》里还给出了具体的分类分级的流程:
参考上面的图,《指引》中把数据分类分为两个阶段,即业务细分阶段和数据归类阶段,每个阶段细分不同的步骤。
在业务细分阶段,参考他们提出的MS-MS方法(管理主体-管理范围),将业务进行细分。
管理主体就是“WHO”,管理范围就是“WHERE”,这两个对象一确定,就说清楚了是“谁”具体负责“哪里”的事情,职责范围就清晰了,业务条线自然而然就划分出来了。
业务细分一共分为四个步骤:
步骤一:确定业务一级子类——基本业务条线。参考《证券期货行业数据模型》确定的业务条线作为基础。对!数据分类和模型是紧密关联的!!!
步骤二:确定每个业务条线下所有的业务管理主体(MS)。
步骤三:确定每个业务管理主体对应的管理范围,明确对应关系(MS-MS)
步骤四:命名映射关系——业务二级子类。
此方法可以在每一层都这么用,无限套娃,理论上可以把所有的业务细分到足够细的颗粒度,直到每个人。
但是我们分类的时候一般就分个3、4级就行了,在《指引》里,建议用MS-MS划分一次就行,剩下的层级放在数据归类阶段进行。
在数据归类阶段,参考他们提出的MS-MO(管理范围、管理对象)方法,对数据进行归类。
MS-MO方法其实也很好理解。管理范围就是延续上面“MS-MS”后面的MS。汇总起来就是MS-MS-MO,就是管理主体(WHO)、管理范围”WHERE“、管理对象”WHAT",即谁,在哪些业务范围,具体管理那些数据。
数据归类总共也分为四步:
步骤一:明确各个业务二级子类的管理范围(MS)。
步骤二:确定业务二级子类的管理范围对应的管理对象(MS-MO),即找到业务二级子类下的全部数据。
步骤三:按照数据细分方法对各个“单类业务数据总和”分别细分,得到数据一级子类。
步骤四:命名数据一级子类。
然后,就是对已划分明确的数据一级子类进一步细分,细分后产生一个或者多个数据子集:
经过上面的两大阶段,8个小步骤,就能得到一个完整的数据分类目录:
小结
数据分类真的很复杂,绝对不是简简单单拖出来一个脑图就能解决问题的。其中最麻烦的地方,是对业务的深刻理解,以及各自管理范围和管理对象的梳理。这时候最容易陷入到企业组织本身的缺陷当中。比如A部门和B部门的职责不清晰,管理范围有交叉、对同一个管理对象都有管理权力,这时候我们就无法划分清楚数据的Owner,也无法确定某个指标的具体负责人到底是谁。我们就是个搞数据的,最后却要陷入到企业管理本身的纷争中去,这才是最头疼、最恼火的事情。