然而,什么是大数据?至今也没有一个比较权威的定义。
麦肯锡曾给出大数据的定义是:大数据是指大小超出了常规数据库工具获取、存储、管理和分析能力的数据集合。
维基百科也给出类似的定义:大数据指的是所涉及的数据量规模大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。
一句话,大数据就是数据量大?!
我觉得,这句话说了等于没说,还容易让人误解。你以为数据量大才是大数据?
大数据(Big Data)的概念,其实早在上个世纪九十年代就已经提出。
最初,大数据是特指由于需要处理的数据量过大,其所需要的计算能力已经超出了单台电脑的处理能力,因此工程师们必须要找到新的处理技术和方法,以便快速处理数据。比如,二手手机靓号交易平台要利用上百上千台电脑组建的集群系统中,实现海量数据的分布式存储和分布式计算,但这需要新的计算系统(比如Apache的开源系统Hadoop大数据平台系统)来实现。
另一方面,随着互联网的发展,所谓数据也不仅仅是指保存在数据库中的排列整齐的结构化数据,也包含大量的非结构化和半结构化的数据(比如网页、图片、音频、视频等等),这些数据也同样蕴含着重要的信息,也属于大数据的范畴。
所以,用数据本身的特征来定义,大数据可以理解为海量数据和复杂数据。
大数据=海量数据 + 复杂数据
其实,大数据并非一个确切的概念,就正如互联网的概念一样。互联网,不仅仅是一个计算机网络,其中有更丰富的内涵;大数据,也不仅仅是数据量大那么简单。
在今天,大数据只是一个泛称,它可以是一种应用场景,也可以是一种技术(分布式技术),是一种方法(分析和挖掘方法),是一种工具(探索事物规律的工具),更是一种思维方式(大数据思维),等等。
尽管,无法给大数据一个明确的定义,但这并不妨碍人们将这个概念应用到人类社会中的所有行业、所有领域中,以解决生活、工作、商业的问题。