谈谈大数据存储与备份的核心——技术与创新-阿里云开发者社区

谈谈大数据存储与备份的核心——技术与创新

2018-01-20 6610

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 根据IDC研究报告未来10年全球数据量将以40%多的增长速度呈直线上升趋势2020年全球的数据量将达到35ZB35,000,000PB是2010年的40倍。换句通俗的话说也就是每过1分钟全世界就有1820TB的新数据产生。

根据IDC研究报告，未来10年全球数据量将以40%多的增长速度呈直线上升趋势，2020年，全球的数据量将达到35ZB（35,000,000PB），是2010年的40倍。换句通俗的话说，也就是每过1分钟，全世界就有1820TB的新数据产生。

657d497560ef5e9e75e39f44e3a7c0dd5e844191

数据量的急速膨胀

随着互联网、移动互联网、物联网等技术的发展，一个城市的数据生产在飞速的发展，信息就成了一个企业的战略子站，市场竞争和政策的管制要求越来越多的数据被长期的保存。不仅仅是企业需要保存数据，政府也越来越开始注重各类信息数据的收集、保存和备份，从而进行用户行为分析、市场的研究。

大数据的分析模式

与传统数据分析相比，用于大数据分析的数据集合主要有2点区别：第一，传统模式大都采用通过采样的方式获得部分数据用于分析，而大数据可以对收集到的所有的数据进行分析，分析用的数据源由采样数据扩展至了全部的数据；第二，传统分析更加关注数据源与分析结果间的因果关系，大数据分析时数据源与分析结果不再只是因果的关系，基于有相关关系的数据源同样可以分析并且预测出正确的结果。

d832f61ef6649b1674a96a9c9e48c09dcff8f8ee

大数据的分析给传统的数据分析和处理技术带来了很多挑战。云计算和开源技术的发展推动大数据落地，分布式存储、非关系型数据库和并行处理技术逐渐成为大数据应用实施过程当中的关键技术。开元Hadoop为大数据提供了各个层面的技术支持，这也是当前形势下应用最广泛、关注度最高的大数据项目。Hadoop几乎已经成为了大数据处理的事实标准。 f5f08cbe2c104bedf650ea57f28fc15cd34df8cc

大数据的存储形式

谈到大数据的分析，就必不可少的在这之前，需要对大数据进行存储和备份。大数据的存储需要满足海量的存储、安全存储和快读读取的要求，目前应用较广的主要有Hadoop分布式文件系统。据江苏爱科赛尔云数据的责任人表示：“作为数据服务公司，技术是最根本的，而目前首要的就是把重心放在原始数据的高压缩和去重技术上。”另外，针对大数据的存储和备份，一些市场上主要的需求和建议在今年也被大家开始提出：

29f119835fb007e24f69b31fcfd1af5b05942e68

1ã 大数据存储和备份系统对备份的文件格式应该采取多样化的设定，即无论何种形式的文件，均可以使用软件进行存储和备份；

2、大数据存储和备份在执行任务的时候，在LAN或WAN时都应该达到最低网速，及时在网速较慢的情况下（256kbps）也能进行快速的备份和上载。

3、针对国内情况，对于虚拟机本身的备份和恢复应该开始重视起来；

4、在软件报错的时候，应该能够进行自我的修复，而不是当软件报错的时候就导致企业无法进行顺利的存储和备份；

5、增加Failover和Failback的失败自动切换和失败自动恢复的模式，这样一来就可以似的操作智能化，在遇到错误的时候能够自动重新选择其它线路，而不是一味的停在原地。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

谈谈大数据存储与备份的核心——技术与创新

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

谈谈大数据存储与备份的核心——技术与创新

热门文章

最新文章

相关课程

相关电子书

相关实验场景