袋鼠云数据中台专栏2.0 | 数据中台之数据源

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 当今企业在发展和经营的过程中,「信息化」早已是建设标准,在企业运作的过程中,或多或少地,积累了很多数据。在进入到DT时代,数据成为企业未来成长的引擎也越来越被认可。有先见之明的企业更注重于从方方面面来收集各项数据。

当今企业在发展和经营的过程中,「信息化」早已是建设标准,在企业运作的过程中,或多或少地,积累了很多数据。在进入到DT时代,数据成为企业未来成长的引擎也越来越被认可。有先见之明的企业更注重于从方方面面来收集各项数据。我们今天的话题就以数据产生和数据内容加以介绍。

企业的数据产生我们按照主动和被动原则来进行划分:

  • 被动数据:为企业事务和流程过程产生的必须数据,即我们一般理解的业务系统,以一般型企业为例,CRM系统、OA系统、ERP系统、交易系统等则为被动数据。

主动数据:则是辅助、记录、日志等非主线业务,需要额外付出人力和成本主动收集的数据,如:网页访问日志、系统运行日志、监控数据、门店用户进出数据等。

下面为数据存在的载体分布示意图:

1

在IT早期时代,硬件为瓶颈,存储和计算资源的不足,在构建数据模型的过程中,基本是以核心业务系统(即关系型数据库)为主,主动数据往往短暂保留或简单分析后即被丢弃。在进入到云计算、大数据的时代,存储和计算的相对廉价,数据的融合和催化效应也越发受到重视,主动数据开始走进公众的视野,成为数据中台之数据来源不可或缺的部分。

二、数据分类

2.1 按来源分类

数据按照来源分类,一般分为数据库、日志、API、FTP文件、IoT、埋点日志、互联网爬虫等。

数据的来源主要影响后续的数据集成和同步,我们需要以不同的技术手段将其同步至数据中台,以袋鼠云提供的组件支持如下:

image

上述FlinkX、JLogstash、DT.Trace、DT.Crawl 均为袋鼠云产品团队研发的技术组件,支撑袋鼠云数栈产品体系。

2.2 按结构分类

数据按照结构分类,一般分类结构化、半结构化、非结构化三种。

结构化数据:一般为二维数据,即行列清晰分明,每一行数据都能拆分成固定的列数,我们日常使用的关系型数据库(Oracle、MySQL)可以表示和存储结构化数据。

半结构化数据:一般为Key-Value型数据,数据格式不固定,如常见的Json和XML即可存储半结构化数据,一些非关系型数据库(HBase、MongoDB)也能存储半结构化数据。

非结构化数据:即没有固定的数据结构,如我们常见的文档、图像、影音、视频等。

我们先从数据中台的输出来看,一般来说都是以结构化数据提供服务,所以在数据清洗的过程中,会将半结构化数据转为结构化数据,然后再进行模型开发。对于非结构化数据,一般以链接的方式作为某个实体的属性来进行分析。

2.3 按主题分类

在构建业务主题的过程中,我们会对企业的数据按照主题来进行分类。以个人的经验来看,数据主题一般按照企业业务的核心实体和业务过程来进行划分。

以电商业务为例,我们一般按照以下八个主题来划分线上业务:

  • 会员:注册会员及潜在会员的各种基础信息数据。

商品:所有可售卖产品和商品数据,也包括类目、品牌,SPU,SKU等相关商品基础信息数据。

交易:交易包含线上从加入购物车到下单、支付、发货、退款退货及成功交易各个业务过程

营销:营销活动过程中的各个业务过程所沉淀的数据。

渠道:包含电商、门店等终端渠道的基础数据及这些终端渠道本身的创建、维护、关闭等业务过程数据。

日志:用户访问所有平台包含官网、微信公众号、电商平台、App等记录下的所有日志数据。

公共:包含企业的组织架构、员工、角色以及公共事务。

物流仓储:商品在仓储物流配送过程中的各个业务过程所沉淀的数据。

除此之外,企业的线下过程和企业内部业务,如生产制造、供应链、组织效能、财务也会认为是独立的数据主题。

数据主题的划分,是数据中台规范建模的重要部分,需要抽象提炼、并且长期维护和更新的,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响的被包含进已有的数据域或者扩展新的数据主题。

2.4 按模型分类

数据模型表一般分为维度表、事实表、聚合表三种,在一般的数据源中,很少直接存在聚合表的现象,所以我们将数据源按照维度表、事实表来进行分类。

维度表: 维度表可以看成是用来分析一个事实的窗口,维度表的主键为对应实体的ID,一般还存在一些实体的属性和特征说明,不同的维度表之间也会存在一些层级、映射关系。如常见的用户表、商品表即是维度表。

事实表:事实表其是通过维度、属性、度量的组合来确定一个事实的,比如通过时间维度、地域维度、度量值可以去确定在某个时刻的一些度量值怎么样的事实。事实表的每一条数据都是几条维度表的数据和度量值交汇而得到的。如交易记录表、用户访问行为表就是事实表。以交易表为例整理维度、属性、度量后如下:

4

在模型初期的整理过程中,可以用E-R图来清晰来表达维度、属性、事实之间的映射和关联关系,以下为顾客消费商品的示例图:
3

通过此图我们能快速了解顾客维度及属性、商店维度及属性、以及顾客和商品间发生的消费行为而产生的事实。

后记

本期内容对于数据的来源、分类进行了简单的说明,由于篇幅的原因未能展开,在后面的章节中,会继续对数据集成、数据模型、数据计算的经验和技术来进行介绍,敬请期待。

袋鼠云数据中台专栏V2.0第八期:

数据中台之数据集成

敬请期待!

本文作者

勒蔑

袋鼠云数据中台-技术总监,阿里云全球MVP。
阿里巴巴大数据架构亲历者,先后服务淘宝数据平台、集团数据平台、无线事业部数据服务、数据平台事业部等团队,参与集团内部天猫双11、用户分析系统、移动数据分析等项目。在袋鼠云期间,负责多个数据中台项目交付。

关于袋鼠云

袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。

数据智能,让未来变成现在

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
5月前
|
存储 JSON Cloud Native
数据库ADB-PG问题之数据源处理如何解决
数据库ADB-PG问题之数据源处理如何解决
|
存储 大数据 数据库
亚信AISWare DataOS大数据中台套件介绍01——添加数据源
DataOS是一款汇总大部分大数据套件的企业型中台,可以满足企业大部分对大数据存储、计算、稽核的需求。但是平台使用体检并不好,所以有条件还是推荐使用阿里云的大数据组件
612 0
国云数据:中国版的Snowflake,国内数据中台领导者
在国内,有一家企业为客户提供的内容和服务与Snowflake非常相似,甚至可以说是中国版的Snowflake,这就是国云数据。
国云数据:中国版的Snowflake,国内数据中台领导者
|
数据采集 新零售 存储
|
存储 数据采集 XML
袋鼠云数据中台专栏2.0 | 数据中台之数据源
数据中台如何定义? 企业数据化与数据中台的关系是什么? 数据中台如何支撑企业战略转型?
1398 0
袋鼠云数据中台专栏2.0 | 数据中台之数据源
|
存储 Oracle 关系型数据库
数据中台构建产品Dataphin到底能支持哪些数据源?
作者:王腾业务数据存储是业务系统最基本的构成,构建数据中台,就是要将这些数据集中起来放到一个有更强算力的地方集中处理,所以对于数据集成的能力是构建数据中台最基本要求;从存储的发展历程来看,由于不同的业务场景需求,带来了数据存储的不同发展路径,在企业发展中随着业务规模的变化,也会选择不同的存储来支撑.
3207 0
|
机器学习/深度学习 数据采集 存储
袋鼠云数据中台专栏2.0 | 数据中台综述:三个维度看数据中台
一、关于数据中台的9个名词 数据中台是什么,当前有很多解释,但是它一定不是哈姆雷特。 新兴的事物总会被各种解读,但是当人们足够熟悉了以后,总会有一个公允的定义得到广泛的认可和接受。这个过程中,最可以用于度量的便是「功能定义」与「业务价值」。
3777 0
|
机器学习/深度学习 数据采集 大数据
袋鼠云数据中台专栏2.0 | 企业数字化建设三范式
关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论。
2977 0
|
大数据
袋鼠云数据中台专栏2.0 | 企业三界:业务界面,应用界面,数据界面
关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型? 袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论。
2815 0
|
4月前
|
运维 数据库 数据库管理
云数据库问题之阿里云在运营商领域数据库替换的整体解决方案要如何实现
云数据库问题之阿里云在运营商领域数据库替换的整体解决方案要如何实现