根据IDC研究报告,未来10年全球数据量将以40%多的增长速度呈直线上升趋势,2020年,全球的数据量将达到35ZB(35,000,000PB),是2010年的40倍。换句通俗的话说,也就是每过1分钟,全世界就有1820TB的新数据产生。
数据量的急速膨胀
随着互联网、移动互联网、物联网等技术的发展,一个城市的数据生产在飞速的发展,信息就成了一个企业的战略子站,市场竞争和政策的管制要求越来越多的数据被长期的保存。不仅仅是企业需要保存数据,政府也越来越开始注重各类信息数据的收集、保存和备份,从而进行用户行为分析、市场的研究。
大数据的分析模式
与传统数据分析相比,用于大数据分析的数据集合主要有2点区别:第一,传统模式大都采用通过采样的方式获得部分数据用于分析,而大数据可以对收集到的所有的数据进行分析,分析用的数据源由采样数据扩展至了全部的数据;第二,传统分析更加关注数据源与分析结果间的因果关系,大数据分析时数据源与分析结果不再只是因果的关系,基于有相关关系的数据源同样可以分析并且预测出正确的结果。
大数据的分析给传统的数据分析和处理技术带来了很多挑战。云计算和开源技术的发展推动大数据落地,分布式存储、非关系型数据库和并行处理技术逐渐成为大数据应用实施过程当中的关键技术。开元Hadoop为大数据提供了各个层面的技术支持,这也是当前形势下应用最广泛、关注度最高的大数据项目。Hadoop几乎已经成为了大数据处理的事实标准。
大数据的存储形式
谈到大数据的分析,就必不可少的在这之前,需要对大数据进行存储和备份。大数据的存储需要满足海量的存储、安全存储和快读读取的要求,目前应用较广的主要有Hadoop分布式文件系统。据江苏爱科赛尔云数据的责任人表示:“作为数据服务公司,技术是最根本的,而目前首要的就是把重心放在原始数据的高压缩和去重技术上。”另外,针对大数据的存储和备份,一些市场上主要的需求和建议在今年也被大家开始提出:
1ã 大数据存储和备份系统对备份的文件格式应该采取多样化的设定,即无论何种形式的文件,均可以使用软件进行存储和备份;
2、大数据存储和备份在执行任务的时候,在LAN或WAN时都应该达到最低网速,及时在网速较慢的情况下(256kbps)也能进行快速的备份和上载。
3、针对国内情况,对于虚拟机本身的备份和恢复应该开始重视起来;
4、在软件报错的时候,应该能够进行自我的修复,而不是当软件报错的时候就导致企业无法进行顺利的存储和备份;
5、增加Failover和Failback的失败自动切换和失败自动恢复的模式,这样一来就可以似的操作智能化,在遇到错误的时候能够自动重新选择其它线路,而不是一味的停在原地。