当今企业在发展和经营的过程中,「信息化」早已是建设标准,在企业运作的过程中,或多或少地,积累了很多数据。在进入到DT时代,数据成为企业未来成长的引擎也越来越被认可。有先见之明的企业更注重于从方方面面来收集各项数据。我们今天的话题就以数据产生和数据内容加以介绍。
企业的数据产生我们按照主动和被动原则来进行划分:
- 被动数据:为企业事务和流程过程产生的必须数据,即我们一般理解的业务系统,以一般型企业为例,CRM系统、OA系统、ERP系统、交易系统等则为被动数据。
主动数据:则是辅助、记录、日志等非主线业务,需要额外付出人力和成本主动收集的数据,如:网页访问日志、系统运行日志、监控数据、门店用户进出数据等。
下面为数据存在的载体分布示意图:
在IT早期时代,硬件为瓶颈,存储和计算资源的不足,在构建数据模型的过程中,基本是以核心业务系统(即关系型数据库)为主,主动数据往往短暂保留或简单分析后即被丢弃。在进入到云计算、大数据的时代,存储和计算的相对廉价,数据的融合和催化效应也越发受到重视,主动数据开始走进公众的视野,成为数据中台之数据来源不可或缺的部分。
二、数据分类
2.1 按来源分类
数据按照来源分类,一般分为数据库、日志、API、FTP文件、IoT、埋点日志、互联网爬虫等。
数据的来源主要影响后续的数据集成和同步,我们需要以不同的技术手段将其同步至数据中台,以袋鼠云提供的组件支持如下:
上述FlinkX、JLogstash、DT.Trace、DT.Crawl 均为袋鼠云产品团队研发的技术组件,支撑袋鼠云数栈产品体系。
2.2 按结构分类
数据按照结构分类,一般分类结构化、半结构化、非结构化三种。
结构化数据:一般为二维数据,即行列清晰分明,每一行数据都能拆分成固定的列数,我们日常使用的关系型数据库(Oracle、MySQL)可以表示和存储结构化数据。
半结构化数据:一般为Key-Value型数据,数据格式不固定,如常见的Json和XML即可存储半结构化数据,一些非关系型数据库(HBase、MongoDB)也能存储半结构化数据。
非结构化数据:即没有固定的数据结构,如我们常见的文档、图像、影音、视频等。
我们先从数据中台的输出来看,一般来说都是以结构化数据提供服务,所以在数据清洗的过程中,会将半结构化数据转为结构化数据,然后再进行模型开发。对于非结构化数据,一般以链接的方式作为某个实体的属性来进行分析。
2.3 按主题分类
在构建业务主题的过程中,我们会对企业的数据按照主题来进行分类。以个人的经验来看,数据主题一般按照企业业务的核心实体和业务过程来进行划分。
以电商业务为例,我们一般按照以下八个主题来划分线上业务:
- 会员:注册会员及潜在会员的各种基础信息数据。
商品:所有可售卖产品和商品数据,也包括类目、品牌,SPU,SKU等相关商品基础信息数据。
交易:交易包含线上从加入购物车到下单、支付、发货、退款退货及成功交易各个业务过程
营销:营销活动过程中的各个业务过程所沉淀的数据。
渠道:包含电商、门店等终端渠道的基础数据及这些终端渠道本身的创建、维护、关闭等业务过程数据。
日志:用户访问所有平台包含官网、微信公众号、电商平台、App等记录下的所有日志数据。
公共:包含企业的组织架构、员工、角色以及公共事务。
物流仓储:商品在仓储物流配送过程中的各个业务过程所沉淀的数据。
除此之外,企业的线下过程和企业内部业务,如生产制造、供应链、组织效能、财务也会认为是独立的数据主题。
数据主题的划分,是数据中台规范建模的重要部分,需要抽象提炼、并且长期维护和更新的,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响的被包含进已有的数据域或者扩展新的数据主题。
2.4 按模型分类
数据模型表一般分为维度表、事实表、聚合表三种,在一般的数据源中,很少直接存在聚合表的现象,所以我们将数据源按照维度表、事实表来进行分类。
维度表: 维度表可以看成是用来分析一个事实的窗口,维度表的主键为对应实体的ID,一般还存在一些实体的属性和特征说明,不同的维度表之间也会存在一些层级、映射关系。如常见的用户表、商品表即是维度表。
事实表:事实表其是通过维度、属性、度量的组合来确定一个事实的,比如通过时间维度、地域维度、度量值可以去确定在某个时刻的一些度量值怎么样的事实。事实表的每一条数据都是几条维度表的数据和度量值交汇而得到的。如交易记录表、用户访问行为表就是事实表。以交易表为例整理维度、属性、度量后如下:
在模型初期的整理过程中,可以用E-R图来清晰来表达维度、属性、事实之间的映射和关联关系,以下为顾客消费商品的示例图:
通过此图我们能快速了解顾客维度及属性、商店维度及属性、以及顾客和商品间发生的消费行为而产生的事实。
后记
本期内容对于数据的来源、分类进行了简单的说明,由于篇幅的原因未能展开,在后面的章节中,会继续对数据集成、数据模型、数据计算的经验和技术来进行介绍,敬请期待。
袋鼠云数据中台专栏V2.0第八期:
数据中台之数据集成
敬请期待!
本文作者
勒蔑
袋鼠云数据中台-技术总监,阿里云全球MVP。
阿里巴巴大数据架构亲历者,先后服务淘宝数据平台、集团数据平台、无线事业部数据服务、数据平台事业部等团队,参与集团内部天猫双11、用户分析系统、移动数据分析等项目。在袋鼠云期间,负责多个数据中台项目交付。
关于袋鼠云
袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。
数据智能,让未来变成现在