启蒙阶段:在20世纪90年代,商业智能(BI系统)开始出现,这个系统可以将企业已有的业务数据转化为知识,帮助决策者进行经营决策。然而,传统的数据库是面向单一业务的增删改查,无法满足这种需求,因此,数据仓库的概念应运而生。
技术变革:随着PC互联网时代的来临,数据规模开始变大,带来了海量的信息。例如,Google和雅虎等互联网巨头一天可以产生上亿条行为数据。2003年,Google公布了三篇鼻祖型论文,包括分布式处理技术MapReduce,列式存储BigTable,分布式文件系统GFS。这些技术的出现为大数据处理提供了新的解决方案。
数据工厂时代:在这个阶段,商用Hadoop包含了上十种技术,整个数据研发流程非常复杂。为了完成一个数据需求开发,需要涉及到数据抽取、数据存储、数据处理、构建数据仓库、多维分析、数据可视化等一整套流程。