《Spark与Hadoop大数据分析》——3.1 启动 Spark 守护进程

简介: 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.1节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.1 启动 Spark 守护进程

如果你计划使用 Standalone 的集群管理器,则需要启动 Spark 的主机(master)和工作机(worker)的守护进程(daemon),它们是 Spark 架构的核心组件。守护进程的启动/停止在不同的发行版里略有差异。Hadoop 发行版(如 Cloudera、Hortonworks 和 MapR)会把 Spark 作为服务,并把 YARN 作为默认的资源管理器。这意味着在默认情况下所有 Spark 应用程序都会在 YARN 框架上运行。但是,要使用 Spark 的 Standalone 资源管理器,我们就需要启动 Spark 的主机和工作机角色。如果你计划使用 YARN 资源管理器,就不需要启动这些守护进程。请根据你使用的发行版类型,按照以下步骤进行操作。所有这些发行版的下载和安装说明可以参阅第 2 章中的内容。

3.1.1 使用CDH

Cloudera的Hadoop发行版(Cloudera Distribution for Hadoop,CDH)是一个开源的发行版,其中包括Hadoop、Spark 和大数据分析所需的许多其他项目。Cloudera Manager 是用来安装和管理CDH平台的。如果你计划使用YARN资源管理器,请在Cloudera Manager中启动Spark服务。要为 Spark 的Standalone 资源管理器启动 Spark 守护进程,请采用以下过程:

(1)CDH 平台上的 Spark 是配置成和 YARN一起使用的。此外,Spark 2.0目前在 CDH上还不可用。所以,要下载最新的预制版 Spark 2.0 Hadoop包,请按照第2章中所解释的步骤进行。如果你想使用 Spark 1.6 版本,请运行 /usr/lib/spark/start-all.sh命令。

(2)请使用以下命令启动服务。

image

(3)在 http://quickstart.cloudera:8080/ 可以查看 Spark 的用户界面。

3.1.2 使用 HDP、MapR 和 Spark 预制软件包

Hortonworks数据平台(Hortonworks Data Platform,HDP)和 MapR 融合数据平台(MapR Converged Data Platform)的发行版中也包括Hadoop、Spark 和大数据分析所需的许多其他项目。HDP 使用 Apache Ambari 部署和管理集群,而 MapR 使用MapR控制系统(MapR Control System,MCS)。Spark 的预制包里没有用于管理 Spark 的特定管理器组件。如果你计划使用 YARN 资源管理器,请在 Ambari 或 MCS 中启动 Spark 服务。要启动 Spark 守护程序以便使用 Spark 的 Standalone 资源管理器,请采用以下过程。

(1)用以下命令启动服务:

image

对于多节点集群,请用以下命令在所有计算机上启动 Spark 的工作机角色:

image

另一种选项是在 /conf/slaves 文件中提供工作机的主机名称列表,然后使用 ./start-all.sh 命令自动在所有计算机上启动工作机角色。

(2)请检查位于logs目录中的日志。可以在 http://masterhostname:8080 上查看主机的Web界面。如果此端口已由另一个服务占用,则会使用下一个可用端口。例如,在 HDP 中,端口 8080 由 Ambari 获取,因此Standalone的主机将绑定到 8081。要查找正确的端口号,请检查日志。

image

相关文章
|
10月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
484 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1126 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
621 79
|
SQL 机器学习/深度学习 分布式计算
Spark快速上手:揭秘大数据处理的高效秘密,让你轻松应对海量数据
【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark,涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台,支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码,帮助读者快速掌握 Spark 的核心技能。
664 6
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
678 2
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
580 1
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
486 1
|
分布式计算 大数据 Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
460 1
|
分布式计算 大数据 Hadoop
技术派:优酷土豆用Spark完善大数据分析
大数据,一个似乎已经被媒体传播的过于泛滥的词汇,的的确确又在逐渐影响和改变着我们的生活。也许有人认为大数据在中国仍然只是噱头,但在当前中国互联网领域,大数据以及大数据所催生出来的生产力正在潜移默化地推动业务发展,并为广大中国网民提供更加优秀的服务。
1640 0