MapReduce朝不保夕的江湖地位

简介:

可怜的MapReduce,直到2013年末,都是Hadoop系统中的关键一环,在这个开源大数据处理框架中,它既是集群的资源管理器,又作为主要编程手段和处理环境存在。但如今看来,情况正在发生变化。

Apache Software Foundation的Hadoop 2版本添加了一个名叫YARN的新技术,取代了MapReduce的资源管理角色,并将Hadoop发展成了超越MapReduce批处理作业的应用程序。目前有很多厂商推出了SQL-on-Hadoop工具,让用户编写针对Hadoop数据分析查询的标准SQL,以代替MapReduce。Spark 处理引擎也应运而生,其支持者声称它运行批处理作业的速度比MapReduce快100多倍,并且支持时下流行的高级编程语言,如Java和Python 等。

随着上述新兴技术的出现,MapReduce已经不再像以往那么重要,就像一个古老的蒸汽引擎被迫让位于更时尚的柴油机车一样。这个现实在纽约 Strata + Hadoop World 2015 会议后更为凸显,在此次会议中,与会者广泛讨论了摆脱MapReduce的议题。用一位发言人的话说,“摆脱MapReduce,尽快和尽可能多地摆脱。”

MapReduce Geospatial 的出现,将这一“去MapReduce化”的情绪推向了顶峰,它是一个开源工具包,用于处理卫星图像和其他大型的栅格数据集。它促使开发者转变原有被称为 MrGeo的开发技术,从MapReduce转而使用Spark。这样做的结果是获得了更高的性能,且代码库容量减少了25%,卫星成像分析公司(DigitalGlobe)的分析主管Smith 承认,是时候为工具包起一个新的名字了。

不仅仅是MapReduce, HDFS (Hadoop分布式文件系统)——Hadoop的其他核心组成部分的代表,也有可能被取代。在Strata 会议上,Hadoop供应分销商的领头羊Cloudera公布了一种名为Kudu的柱状数据存储,作为HDFS在实时流数据分析方面的一个潜在替代技术。 Hortonworks,另一个Hadoop供应商,推出了一个单独的软件来管理不同系统之间的数据流,HDFS的地位受到了威胁。

MapReduce和HDFS很快就会消失。尽管目前有很多应用程序基于二者构建,大量的Hadoop用户仍会使用它们来完成一些大数据处理的需要。但以后部署Hadoop系统将不再需要这两种技术的情况将不可避免。

他们真的还会是Hadoop集群吗?这是一个生死攸关的问题。但Hadoop的进化,或者身份危机也许是大数据时代带来的易变性数据管理环境所引发变革的一个缩影。各种关系数据库和SQL一枝独秀的时代一去不返了。我们生活在一个多元的世界,这个世界存在各种技术,满足着不同的数据处理和分析的需要。当然关系型软件也在其中,此外还包括由Hadoop,Spark,NoSQL数据库以及其他大数据工具组成的庞大且不断扩张的生态系统。Hadoop处于这个生态系统的中心位置,但这个位置并不是永久的,很可能在将来的某一天被其他技术所取代。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
解决Minikube运行拉取镜像慢的问题
使用国内镜像源加速Minikube启动:先拉取阿里云托管的kicbase基础镜像,删除原有集群,再通过指定镜像和中国区镜像源启动Minikube,提升部署效率。
281 0
|
1月前
|
SQL 数据可视化 关系型数据库
专为 Apache Doris 打造的可视化数据管理工具 SelectDB Studio
SelectDB Studio 提供 Desktop & Server 双版本,专注于为用户提供高效、便捷的可视化操作体验,帮助数据开发者、DBA 低门槛、高效率地对 Apache Doris 及其兼容数据库中的数据进行可视化开发和管理。
152 0
|
4月前
|
消息中间件 存储 数据采集
Apache InLong:构建10万亿级数据管道的全场景集成框架
Apache InLong(应龙)是一站式、全场景海量数据集成框架,支持数据接入、同步与订阅,具备自动、安全、可靠和高性能的数据传输能力。源自腾讯大数据团队,现为 Apache 顶级项目,广泛应用于广告、支付、社交等多个领域,助力企业构建高效数据分析与应用体系。
|
数据采集 大数据
大数据实战项目之电商数仓(二)
大数据实战项目之电商数仓(二)
351 0
|
BI
数仓项目总结--持续更新中
数仓项目总结--持续更新中
225 2
|
前端开发 关系型数据库 MySQL
DataSphere Studio AppConn 部署
DataSphere Studio AppConn 部署
|
JSON 关系型数据库 MySQL
MySQL中GROUP_CONCAT与JSON_OBJECT、GROUP BY的巧妙结合:打造高效JSON数组汇总
MySQL中GROUP_CONCAT与JSON_OBJECT、GROUP BY的巧妙结合:打造高效JSON数组汇总
574 1
|
机器学习/深度学习 分布式计算 大数据
MaxCompute 2.0:开源系统的集成与创新
增强实时处理能力:进一步加强与Flink等实时处理框架的合作。 强化机器学习支持:提供更多内置的机器学习算法和工具。 增强数据治理功能:提供更完善的数据质量和安全治理方案。
|
消息中间件 NoSQL OLAP
doris数据库是否可以替代redis
【4月更文挑战第20天】doris数据库是否可以替代redis
858 0
|
JSON Java API