大数据热中的冷思考

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

时下,大数据热持续升温,大数据一词已成为各种公开场合中最为炙手可热的关键词。大数据热已成为一股汹涌澎湃的潮流,于是乎,各种大数据概念满天飞,人人都在谈论大数据,仿佛你的发言中没有提到大数据,你的成果中没有应用到大数据,那你就彻底OUT了。

历史反复告诉我们:当一件事情持续过热,承受了名过其实的追捧,就必然会产生泡沫。是泡沫就会有破裂的一天,事实必然会随着泡沫的破裂而恢复到本来面目。总的来说,近年来涌现的一些新的大数据技术的确促进了数据处理能力的大幅提高,但也应该注意的是,伴生着大数据的发展也产生了一些不良现象,比如:炒作概念,无中生有;似懂非懂,滥用数据;盲目跟风,浪费资源等。这些不良现象应引起我们足够的重视。

现象本质大数据概念的提出是在2008年,数据科学家维克托·迈尔-舍恩伯格及肯尼斯·库克耶在《大数据时代》一书中提出:大数据不用随机分析法(抽样调查)这样的捷径,而使用所有数据进行分析处理。2012年,IBM商业价值研究院与牛津著名的赛德商学院联合发布了一份题为《分析:大数据在现实世界中的应用》的报告,报告中用四个V来确定大数据,即:数量(volume)、多样性(variety)、速度(velocity)和精确性(veracity)。

从专业的角度看,大数据这个概念是一个很不科学严谨的概念,具有很大的模糊性,但正因如此,给外界留下了很大的想象空间。随着互联网技术的高速发展,数据的形态越来越复杂,对数据的使用要求更是五花八门。在不同的场景下,大数据这个词汇似乎成了一个筐,什么都可以往里装。这一概念不但看起来“高大上”,而且科技感十足,想象空间足够大,因此备受推崇。政府部门出于拉动GDP等因素考虑,觉得大的项目往往更容易得到重视和青睐,因此力推大数据。与此同时,一些商业组织出于商业利益考虑,也乐于炒作大数据概念。比如在资本市场上,有哪只股票要是成为大数据概念股,市值很容易就会大幅提升;哪家创业公司如果跟大数据贴上边,就会受到风投公司的追捧。而上下游产业的IT公司更是乐见大数据热现象持续蔓延,因为大数据往往意味着大投资、大生意、大客户,相关软件和硬件的销量自然急剧增加,毫不费力赚得盆满钵满。于是,一场以大数据为名的运动在全社会轰轰烈烈地开展起来。

对企业的危害大数据是一柄双刃剑,用得好会给企业创造价值,用不好不但会成为企业的负担,反而还可能会成为误导。具体说来,滥用大数据的危害性有以下几点。

1、导致错误的评价有这样一个笑话,某大学年度调查统计显示,本校计算机系的女同学中,50%都嫁给了该校的男性老师。该消息一经公布,立即引起校内外的巨大反响,人们对师生恋、校园恋议论纷纷,很多人说是某校的炒作。经几次调查核实,该消息确实是真实有效的。原来该大学计算机系只有两名女生,其中一名女生和计算机系老师相恋结婚,由此得来的50%是真实数据。

这个笑话不但反映了使用片面的数据造成的危害,而且揭露出一部分人过于迷信数据的心理。数据虽然是客观和科学的,但怎么使用和看待数据却是人的问题。如果有些别有用心的人利用大众对于大数据盲目迷信的心理来误导大家,那么这种披着权威外衣的欺骗甚至要比不用大数据更能导致严重后果。

2、导致错误的决策数据的最大商业价值在于预测,现在的企业越来越倾向于使用大数据得出的结论作为未来的决策依据。尽管如此,仍有不少数据分析专家认为,当企业开始搞大数据的时候,他们就走上了一条不归路,数据越大,其中枝节越多,错误也就越多。数据科学家Vincent Granville在《大数据的诅咒》里写道:“这并不难解释。例如即使数据集之中只包括1000个因子,那这些因子之间的相关关系数量就高达百万级别。这也就意味着一些因子之间的关系可能完全是随机的,以此来建预测模型,你会输得很惨。”

3、投资与收益严重倒挂大数据既然“大”字当头,自然投资成本不会小。在硬件层面上,要投入比以往系统多得多的主机、存储、网络设备以及相关配件,由于设备数量的增加还会造成大量的用电负荷以及占用大量机房场地空间,对布线、空调等相关配套的需求也急剧增加;在软件层面上,虽然操作系统和数据库等底层可以找到越来越多的开源软件可替代,但那些针对数据挖掘和数据分析以及分布式存储的软件是永远也不可能免费的,而且普遍价格高昂;在维护成本方面,由于大量使用开源软件,大数据所带来的大集群以及低稳定性需要付出更多的人力成本。

可见,大数据必然是大手笔的投入,然而这种大投入能不能带来大产出就是另一回事了。对于分析系统而言,其分析的结果能否抵得上投资收益是一件不太确定的事,并且有效数据的产生可能需要一个长期的过程。对大数据的挖掘有点像在一座据说藏有黄金的矿山中挖掘,但要挖多深、挖多久才能有结果,其实并不确定。

4、加重核心系统的负担最重要和最有价值的数据必然是从核心系统产生出来的,大数据分析的过程就是一个先大量占有、再慢慢分析的过程,在这个过程中,必然不能缺少核心数据的参与。这意味着核心系统需要开放更多的接口,牺牲一定的性能来配合分析。不仅如此,在争抢系统资源方面,大数据系统当然比资源池内的其他系统更有“威力”。即使是主机环境互相隔离开,但只要是在一个机房内,存储、网络带宽、机架空间、用电负荷等资源也会被迅速增长的大数据系统抢得一干二净。长此以往,核心系统的业务资源必然紧张,系统运行风险也随之上升。

建言献策大数据是信息化系统发展到一定阶段以后的必然产物,更大更全面的数据处理能力必将成为企业未来重要的生产力来源。然而,对于大数据,我们不能只抱着一片痴心,还要像认识硬币的正反两面一样,对大数据的负面问题有所防范。

首先,不迷信不盲从大数据。大数据不是万能的,更不是完美的,数据仅仅是一种参考资料,如何看待和使用数据还要靠人。因此要用审慎的心态看待数据,避免因使用片面的数据而产生决策偏差,甚至是步入陷阱。如果我们不能合理使用大数据,那么大数据就真的成了“大忽悠”。

其次,要根据企业实际选择合适的大数据方案。在大数据系统立项和建设之初,就要充分考虑投入和产出的比率,对于产出价值不大的系统应采取审慎的态度建设,并且严格控制规模,避免“大而全”的建设思路。只有在建设前期就严格把关,才能防止大数据成为“大负担”。

最后,做好数据信息安全防范。在使用大数据的同时,也一定要做好数据信息可能泄露的安全防范。数据如果沉淀下去一直不用当然不会创造价值,但如果不注意数据信息的安全防范就可能造成信息泄露、篡改、盗用、删除等严重后果。极端情况下,甚至会给企业造成致命的打击。因此一定要限定数据使用的范围、流程,避免大数据演变成为“大灾难”。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
大数据 安全 数据挖掘
|
数据挖掘 大数据
影视业里的大数据应用,是噱头?
虽然不是完全同意文中看法,但作为反向观点,供大家借鉴思考。    近几年,有很多关于大数据在影视方面的案例,Netflix 这个词估计让大家耳朵都听起茧了,另外英国的一家做剧本语义分析的公司Epagogix也成为一个小热词。
1261 1
|
存储 分布式计算 算法