CIO 指南:如何在 SAP® 软件架构中使用 Hadoop

简介: Gartner指出,2013年,大数据是影响信息架构的最重要的技术趋势之一。“信息的数量、生成速度和种类都在不断增加,而且那些未被治理和未得到充分利用的信息中蕴藏着巨大的价值,同时也隐藏着潜在的风险。

Gartner指出,2013年,大数据是影响信息架构的最重要的技术趋势之一。“信息的数量、生成速度和种类都在不断增加,而且那些未被治理和未得到充分利用的信息中蕴藏着巨大的价值,同时也隐藏着潜在的风险。在这些因素的驱动下,信息管理技术与实践领域的重大创新层出不穷。”
SAPHANA能够帮助企业解决一个非常重要的大数据问题,那就是快速访问和实时分析极其庞大的数据集。这样,企业的管理人员和高管就能以思维般的速度了解自身的业务状况,充分挖掘信息的价值。另外,SAP还发布了SAPReal-TimeDataPlatform(SAPData-baseandDataManagement的前身)。该平台整合了SAPHANA和SAPIQ,以及其他SAP技术和非SAP技术,特别是Hadoop,其中Hadoop就是本文探讨的对象。SAPReal-TimeDataPlat-form可以用于分析处理和联机事务处理(OLTP)。尽管单独使用时,每项技术也能交付业务价值,但若结合使用,这些技术就能整合、分析和处理企业拥有的所有数据,进而提供更深入的业务洞察,并创造新的业务机会。
为了在众多数据技术中找到最佳的平衡点,解决业务问题,企业必须考虑诸多因素。除了软硬件成本外,企业还必须考虑开发工具、与满足其服务水平相关的运营成本,以及如何落实有关安全性、高可用性、安全备份和数据恢复的各项政策。
这就提出了两个问题,同时也是本文要回答的两个问题:
•在什么情况下,Hadoop是解决业务问题的最佳方案?
•如何将Hadoop与SAP的解决方案及技术结合使用?
这些技术之间存在着许多重大差异。一方面,Hadoop采用商用服务器处理PB级甚至EB级数据,这远远超过了SAPHANA和传统关系数据库管理系统(RDBMS)的处理能力,后者处理的数据规模通常为100TB级或更低。3另一方面,当前Hadoop版本的速度明显比传统的RDBMS和SAPHANA要慢,需要花费数分钟或数小时才能提供分析结果。但是,这些版本能更轻松地处理任意数据结构,而且每TB数据的硬件存储成本通常更低。
这就意味着,Hadoop与SAPHANA不同,它无法支持你以思维般的速度了解业务状况。但是,Hadoop能帮助你以更低的成本存储和访问更多更详细的数据,从而以不同的方式更深入地了解企业的基础数据。
最终,通过将SAPHANA与Hadoop相结合,你能够快速处理真正的大数据。

目录
相关文章
|
7月前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
214 2
|
7月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
1115 0
|
7月前
|
存储 分布式计算 Hadoop
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
488 0
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
177 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
72 2
|
2月前
|
存储 分布式计算 Hadoop
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
56 2
|
4月前
|
资源调度 分布式计算 监控
【揭秘Hadoop YARN背后的奥秘!】从零开始,带你深入了解YARN资源管理框架的核心架构与实战应用!
【8月更文挑战第24天】Hadoop YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的资源管理器,为Hadoop集群上的应用提供统一的资源管理和调度框架。YARN通过ResourceManager、NodeManager和ApplicationMaster三大核心组件实现高效集群资源利用及多框架支持。本文剖析YARN架构及组件工作原理,并通过示例代码展示如何运行简单的MapReduce任务,帮助读者深入了解YARN机制及其在大数据处理中的应用价值。
97 0
|
5月前
|
存储 分布式计算 Hadoop
阿里巴巴飞天大数据架构体系与Hadoop生态系统的深度融合:构建高效、可扩展的数据处理平台
技术持续创新:随着新技术的不断涌现和应用场景的复杂化,阿里巴巴将继续投入研发力量推动技术创新和升级换代。 生态系统更加完善:Hadoop生态系统将继续扩展和完善,为用户提供更多元化、更灵活的数据处理工具和服务。
|
6月前
|
分布式计算 资源调度 Hadoop
分布式系统详解--架构(Hadoop-克隆服务器)
分布式系统详解--架构(Hadoop-克隆服务器)
60 1
|
存储 分布式计算 Hadoop
【大数据处理框架】Hadoop大数据处理框架,包括其底层原理、架构、编程模型、生态圈
【大数据处理框架】Hadoop大数据处理框架,包括其底层原理、架构、编程模型、生态圈
396 0