企业IT架构转型之道:阿里巴巴中台战略思想与架构实战. 2.5 为真正发挥大数据威力做好储备

简介:

2.5 为真正发挥大数据威力做好储备

如今,“大数据”成为近年来在互联网、IT业界最为炙手可热的名词,很多人甚至将企业互联网转型的期望完全寄托到了大数据上,这也就是为什么越来越多的企业纷纷上马大数据项目。我个人坚信,大数据接下来会是展现企业核心竞争力并挖掘新商业模式,从而改变世界的强大技术推动器。但我发现很多大数据项目在实施落地时因为各种问题和原因,从结果来看项目带来的成效并没有达到企业实施大数据项目的预期,其中有以下两个问题尤为凸显:

数据分布广、格式不统一、不标准。也还得归咎于“烟囱式”系统建设方式,使得相关业务领域的数据分布在不同的系统中,比如企业的会员信息可能分别存放在天猫、微信公众号、自建电商等不同的平台中,而且系统在各自建设时都基于各自开发团队对业务的理解建设相关的数据模型,造成相关业务的数据模型和标准不统一,这就为大数据平台项目初期数据的抽取和同步带来很多的复杂工作:数据层访问的打通、数据权限的控制、数据格式的转换、数据清洗、数据同步等。而这一系列的工作必然也对项目的整体实施带来了不小的风险。

缺少能基于数据有业务建模能力的专家。不管使用何种平台构建大数据平台,这些大数据平台在平台计算能力、算法种类的数量上存在或多或少的差异,但真正要发挥出这些大数据平台威力的重点还是要围绕着业务场景,也就是要有人知道怎么利用大数据平台发挥出真正的业务价值,这是很多大数据平台难于落地或真正让企业感受到大数据带来价值的最大障碍。理论上,企业的业务部门应该有这样的业务专家能提供这样的业务需求,但实际情况是,能基于对业务的理解提出对大数据平台需求的专家在企业中凤毛麟角,就算对业务有足够精湛的理解,但对大数据的能力和算法又很难完全弄清楚;而大数据平台的专家又往往只是对自身的大数据平台功能、算法和使用了如指掌,但对于企业的业务又没有深入的了解,更谈不上对业务进行分析预测。从而最终导致的结果就是企业花费了巨资搭建的大数据平台,但苦于没有合适的应用,而让大数据平台空有一身武艺,而无用武之地。

以上两大原因造成了大多数大数据平台项目所展现的业务价值不尽如人意,如何很好地解决以上两个问题?我认为共享服务体系是解决这两大问题的不二法门。

回顾前面章节中的内容,如果我们相关业务领域(如用户、商品、交易等业务)在业务和数据层做了很好的融合,这样既能将业务的数据在系统运行中就进行了很好的规整和沉淀,并且每一个服务中心提供的数据均是质量非常高的业务数据。这样在进行大数据项目实施时为了获取完整的、有质量的业务数据所做的一系列工作均可以在很大程度上避免和简化。

对于“缺少能基于数据有业务建模能力的专家”的问题,我认为很难寄希望于业务部门能培养出这样的专家,这样的人所需要具备的专业素养要求非常高,如今兴起的叫“数据科学家”正是这类专家的代名词,一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。看看这样的素质要求,这类人才对于任何一个企业来说都是难寻的。如何走出这类人才缺乏的困境?我认为企业应该自我培养,靠从外部找寻此类人才可称得上是可遇可不求。而共享服务体系能很好地帮助企业信息部门培育出懂业务的专家,这些人员自身在拥有不错的技术功底的同时,逐步提升业务上的能力,具备这样能力模型的人员才有希望成为能发挥大数据平台价值的“数据科学家”。

从阿里巴巴的阿里指数(如图2-5所示,早期叫“淘宝指数”,是典型的大数据应用)的发展就能看出,共享服务体系对于大数据项目建设的贡献和支持。在2009年共享业务事业部成立后,将阿里巴巴集团几大电商平台的用户、商品、交易等业务沉淀为了几大服务中心,随着集团对电商平台中各业务指标越来越关注,阿里巴巴开始打造自己的大数据平台,基于现有的共享业务事业部各服务中心的数据,很快就构建了早期的淘宝指数平台,可以从各个维度(用户、区域、行业等)展现出各种业务指数,为集团和商家的业务决策和营销策略提供了最有力的支持。

 

图2-5 淘宝指数

对于那些计划实施大数据项目的企业,如果还没有想清楚如何通过大数据平台的建设给企业带来真正的业务价值,可以先从共享服务体系的打造入手,对企业自身的业务在阵型上做一次优化和调整,为将来大数据平台真正威力的展现准备好高质量、统一的业务数据,培养出兼具技术功底和精通业务的复合型人才。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
2422 0
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
9月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
815 1
|
9月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
391 0
大数据之路:阿里巴巴大数据实践——离线数据开发
|
8月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
611 0
|
7月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
590 1
|
8月前
|
SQL 存储 监控
流处理 or 批处理?大数据架构还需要流批一体吗?
简介:流处理与批处理曾是实时监控与深度分析的两大支柱,但二者在数据、代码与资源上的割裂,导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升,传统架构难以为继,流批一体应运而生。它旨在通过逻辑、存储与资源的统一,实现一套系统、一套代码同时支持实时与离线处理,提升效率与一致性,成为未来大数据架构的发展方向。
|
8月前
|
存储 供应链 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业供应链风险预警与决策支持中的应用(204)
本篇文章探讨了基于 Java 的大数据可视化技术在企业供应链风险预警与决策支持中的深度应用。文章系统介绍了从数据采集、存储、处理到可视化呈现的完整技术方案,结合供应链风险预警与决策支持的实际案例,展示了 Java 大数据技术如何助力企业实现高效、智能的供应链管理。
|
8月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
676 0
|
存储 分布式计算 大数据
大数据之路:阿里巴巴大数据实践——大数据领域建模综述
数据建模解决数据冗余、资源浪费、一致性缺失及开发低效等核心问题,通过分层设计提升性能10~100倍,优化存储与计算成本,保障数据质量并提升开发效率。相比关系数据库,数据仓库采用维度建模与列式存储,支持高效分析。阿里巴巴采用Kimball模型与分层架构,实现OLAP场景下的高性能计算与实时离线一体化。
871 0
|
9月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。
937 0