Spark安装教程

2024-05-06 156

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

简介： 该教程详细介绍了在Linux环境下安装Spark 3.1.2的步骤。首先，检查JDK版本需为1.8。接着，下载Spark资源并设置环境变量`SPARK_HOME`。配置`spark-env.sh`和`yarn-site.xml`文件，禁用内存检查。然后，重启Hadoop集群，启动Spark集群，并通过`jps -ml`检查Spark Master和Worker。可以通过Web UI访问Spark状态，并使用`spark-shell`测试Scala交互环境及Spark on Yarn。最后，学习如何关闭Spark集群。

Spark安装教程

1. 检查jdk版本

检查jdk是否安装并且版本是否为1.8

javac -version
# javac 1.8.0_171

2. 获取Spark版本安装资源

本文以Spark3.1.2为例，资源详见文章上方。
https://dlcdn.apache.org/

3.环境变量

vim /etc/profile
export SPARK_HOME=/opt/software/spark-3.1.2
export PATH=$SPARK_HOME/bin:$PATH

4.配置文件

cd $SPARK_HOME/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh
------------------------------------------------
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop/
------------------------------------------------

cd $HADOOP_HOME/etc/hadoop
vim yarn-site.xml
------------------------------------------------
# 添加两个property
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
------------------------------------------------

5. 重启Hadoop集群(使配置生效)

stop-all.sh
start-all.sh

6. 启动Spark集群

/opt/software/spark-3.1.2/sbin/start-all.sh

6.1 查看Spark服务

jps -ml
----------------------------------------------------------------
1649 org.apache.spark.deploy.master.Master --host single --port 7077 --webui-port 8080
1707 org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://single:7077
----------------------------------------------------------------

6.2 访问Spark WEB UI

http://single01:8080/

7. 启动 Spark-Shell 测试 Scala 交互式环境

spark-shell --master spark://single:7077
----------------------------------------------------------------
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://single:4040
Spark context available as 'sc' (master = spark://single:7077, app id = app-20240315091621-0000).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/

Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_171)
Type in expressions to have them evaluated.
Type :help for more information.

scala> _
----------------------------------------------------------------

8. 测试Spark On Yarn

spark-shell --master yarn
----------------------------------------------------------------
Spark context Web UI available at http://single:4040
Spark context available as 'sc' (master = yarn, app id = application_1710465965758_0001).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/

Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_171)
Type in expressions to have them evaluated.
Type :help for more information.

scala>
----------------------------------------------------------------

9.关闭Spark集群

/opt/software/spark-3.1.2/sbin/stop-all.sh

Spark安装教程

Spark安装教程

1. 检查jdk版本

2. 获取Spark版本安装资源

3.环境变量

4.配置文件

5. 重启Hadoop集群(使配置生效)

6. 启动Spark集群

6.1 查看Spark服务

6.2 访问Spark WEB UI

7. 启动 Spark-Shell 测试 Scala 交互式环境

8. 测试Spark On Yarn

9.关闭Spark集群

大数据与机器学习

热门文章

最新文章

相关电子书