大数据:敢问路在何方?

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

短短几年之内,大数据已经彻底改变了企业运营业务的方式——但截至目前,我们才刚刚初窥其门径。随着企业开始有意识到收集各类数据信息,其亦开始发现对这部分数据加以正确利用所能够带来的巨大潜力。

一些积极迎接变革的企业发现,他们的数据实际上可能正是其掌握的最大资产。除了数据本身之外,精明的企业还能够通过分析数据内容以了解并更好地服务于自身客户,甚至能够将其中一些关键性数据出售给合作伙伴及下游厂商以赚取额外利润。举例来说,优步与Lyft等服务就能够非常准确地把握与客户出行习惯相关的数据,并将其交付至Airbnb、VRBO等其它网站。与此同时,Fitbit及其它厂商提供的健身追踪器亦能够利用用户的健康活动数据实现巨大价值。即使是与医疗卫生业务毫不沾边的苹果公司,也能够以前所未有的洞察能力审视其原生健康应用数据。

在理论层面讲,如此庞大的数据宝库将能够为B2B及B2C企业带来集中且立足实践行为的洞察结论,进而以前所未有的方式开启新的机遇大门。然而,面对着一系列重大的技术性与财务性障碍,很多企业实际上并不清楚自己的下一步大数据战略该走向何处。其已经开始在数据挖掘领域试水,但尚未制定出一套能够顺利迈进的坚实战略思路。

为何存在挑战?

截至目前,实现大数据技术承诺的最大障碍之一在于庞大的资金投入要求。从当下的情况来看,最为成功的项目往往需要耗资数百万美元,例如沃尔玛的专用数据创新实验室WalmartLabs。然而,这种项目只适用于那些世界上最为庞大的企业,其具备极为雄厚的财力与几乎无穷无尽的资源。很明显,这样的标准对于其它公司而言并不适用,或者说毫无实现的可能。

为何利用大数据技术会呈现出如此明确的资源密集型倾向?答案主要分为以下三个方面:

数据的输入速度极快,且数据来源数量亦急剧增加:移动、云应用、物联网——从用于追踪库存与设备的RF标签到一切接入网络的家用电器——当然,社交媒体亦是一大不容忽视的实时数据来源。

此类新型来源几乎全部在以非结构化或者半结构化格式交付数据,这使得传统的关系型数据库管理方案——即SQL以及几乎一切现代数据库系统的实现基础——毫无用武之地。除了收集及存储方面的挑战之外,合规性要求中的隐私与监管要求亦会带来新的复杂性层。不断发展的标准要求需要完整团队配合先进的技术、管理与维护手段方可实现。

随着在数据复杂度的日益提高,用于管理数据的具体技术方案亦变得更难于使用。Hadoop、Kafka、Hive、Drill、Storm、MongoDB以及Cassandra等开源工具外加一系列专有方案共同构成了独立且相互竞争的方案生态系统,只有具备深厚的技术操作知识方可将其真正应用在商业环境当中。事实上,此类人才资源非常稀缺,大多数非财富五百强企业都无力承担由此带来的高昂开支。

缺失之处何在?

可以看到,绝大多数企业仅仅是在努力管理并挖掘自己的存储数据集,而很难实际利用数据中的信息建立自身竞争优势。在实践性、实用性及可行性方面,企业还无法充分运用现有工具发挥数据中的可观潜能。需要明确的是,目前我们并不缺乏良好的大数据工具,事实上我们缺乏的是真正具备效率与有效性的解决方案,这种能够解决数据孤岛及高度依赖性难题的手段既匮乏又难于维护。

为什么?因为截至目前,我们的重点一直放在整合应用程序并建立各类独立工具与平台之间的连接机制,缺少这种桥梁它们将根本无法协作。举例来说,我们需要想办法对接CROM与ERP,或者将销售工具与市场营销自动化机制相整合。

这种应用到应用型方案的问题在于,其完全忽略了数据本身——这意味着数据仍然可能以分裂化、孤立化或者碎片化形式存在。即使应用程序能够彼此连接,如果其各自拥有自己的数据存储形式,那么数据亦无法实现通用。这意味着我们将面对大量不完整或者重复的数据记录,即通常所谓的“脏”数据。任何分析方法都无法利用这样的数据素材提供可靠的结论——因为数据本身就不够可靠。

我们该如何解决问题?

为了真正处理大数据——同时利用其实现洞察分析与业务增长,而非单纯进行数据收集——我们需要一套新型方案以专注于数据本身,而非应用程序。事实上,相较于应用程序级别,立足于数据层级解决集成化问题才是实现大数据项目成功的关键所在。

通过将集成与数据管理融入单一统一化平台,我们将能够构建起一套全面、简洁且具备来源中立性的数据湖,企业可将其作为单一可靠来源基础,并接受任何源或者分析应用的写入或者读取访问。除了敞开大门允许几乎一切应用出于几乎一切目的以正确方式接入正确数据之外,其还能够显著提升分析工作的效率、精度与可信度。

iPaaS就是答案?也许言之尚早……

尽管不少从业者高度提倡将iPaaS(即集成平台即服务)作为最佳解决方案,但这种自助式方案仍然会给内部团队带来沉重的复杂集成工作负担,而且相当一部分企业根本不具备相关资源或者由自身IT及业务人员管理集成化“管道”的意愿。随着新型集成化需求的快速涌现,我们很难找到顺畅可行的iPaaS方案规模扩展途径,更不用提由此带来的合规性与数据治理难题了。为业务用户提供独立于IT之外配置集成机制的能力可能对安全性及合规性造成危害,亦可能无意中导致企业遭遇信息泄露进而受到惩罚,同时此类未受IT集成策略支持的一次性实施工作还可能造成设计中需要尽可能避免的数据孤岛问题。

最后,尽管实现过程较为简单,但其在成本与可扩展能力方面存在严重局限。利用iPaaS,我们将很难为未来的发展做好打算; 在本质上,这只是一种临时性解决办法,且必须反复调整以适应需求增长与变化。

理想的解决方案:dPaaS真正实现大数据成功

值得庆幸的是,目前已经出现了一种全新的大数据管理与集成方法,且适用于任何规模的企业,并可通过高效、可管理且可扩展的方式对大数据资源加以运用。

数据平台即服务,简称dPaaS,是一套统一化多租户云平台,可通过更为灵活且以数据为中心的应用中立性方式提供集成与数据管理托管服务,从而满足几乎一切与大数据相关的需求。相较于专注于集成应用程序,dPaaS专门负责集成数据,确保跨应用数据湖读取或写入操作的简洁性、质量、可访问性以及合规性。

利用dPaaS,企业能够彻底告别数据孤岛及复杂性乃至高成本集成项目,真正随时拥抱新型应用、从坚实的数据存储库内提取信息并保持完整的数据生命周期内可视性——且享受各类内置合规性与治理能力。

下面来看其中的几项核心功能。

统一化数据管理

利用dPaaS,企业的整体数据存储库可被管理为单一全面存储集合。不同于iPaaS与应用到应用类集成方案所导致的数据孤岛、不匹配字段、缺失值、重复记录以及其它“脏”数据问题,dPaaS能够保持数据独立于应用程序之外。其创建并维持一套无模式中央存储库,同时包含指向几乎一切数据源的元数据关系,这意味着企业能够轻松地随时添加新型应用并继续保持其数据的简洁性、综合性与准确性。

内置合规性

保持对不断演变的合规性要求的持续遵循正变得愈发困难且成本高昂,这意味着我们需要投入大量资源与时间进行审计及重新认证。然而利用dPaaS,合规性能够立足数据层得到保障,这意味着由相关平台供应商负责对基础设施进行持续认证维护,从而确保以全面而非零散的方式进行监管遵循。具体来讲,dPaaS会将大部分合规性负担转移给供应商,从而更好地保障闲置与活动数据与合规要求相符。

卓越中心

dPaaS能够构建起一套集成卓越中心(简称COE),甚至使得中小型企业能够利用来自供应商的资源、知识、流程、工具乃至人才实现出色的效率并解决更为复杂的业务流程及挑战。构建内部卓越中心过去需要规模庞大的团队方可实现,但如今dPaaS能够将卓越中心作为一种常态。平台供应商负责提供专业人员、资源及工具,这意味着几乎任何规模的企业皆可利用这一综合性集成卓越中心享受到前沿技术与服务。

管理服务

与自助性iPaaS解决方案不同,dPaaS能够将大部分集成复杂性转移至平台供应商处,由后者负责处理ETL及其它用于构成集成基础的“管道”流程。这不仅能够让企业拥有更出色的成本效益水平,同时亦可简化最新技术的获取方式,帮助客户保持明确的市场竞争优势。这意味着企业客户能够将更多内部人员及预算投入到战略性项目当中,进而有力推动营收增长并强化企业的核心业务。

dPaaS的光明未来

凭借着全面的统一化数据集成与管理方案,dPaaS已经显示出光明的发展前景,足以帮助客户摆脱过去粗放的数据挖掘工作,真正迈入大数据利用阶段。而由此提供的全部工具及专业知识——以及未来发展路线图——都将帮助企业以更加高效、有效且具备成本效益的方式建立并推动大数据项目。

相较于浪费时间与精力“重新发明轮子”,企业应当利用dPaaS帮助自身建立竞争优势,同时更为准确地获取并保持市场领先性。

原文标题:What’s Next for Big Data?,原文作者:Rob Consoli

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
数据挖掘 大数据
影视业里的大数据应用,是噱头?
虽然不是完全同意文中看法,但作为反向观点,供大家借鉴思考。    近几年,有很多关于大数据在影视方面的案例,Netflix 这个词估计让大家耳朵都听起茧了,另外英国的一家做剧本语义分析的公司Epagogix也成为一个小热词。
1261 1
|
大数据
你是如何被“大数据”洗脑的?
在这个大数据盛行的时代,到底是应该相信常识还是相信时代呢?
1924 0
|
存储 数据可视化 大数据
关于大数据你应该了解的五件事儿
本文从基本概念、行业趋势、学习途径等几个方面介绍了大数据的相关内容,适合对大数据感兴趣的读者作为入门材料阅读。
2294 0
|
存储 人工智能 算法
|
安全 大数据