Spark安装教程

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 该教程详细介绍了在Linux环境下安装Spark 3.1.2的步骤。首先,检查JDK版本需为1.8。接着,下载Spark资源并设置环境变量`SPARK_HOME`。配置`spark-env.sh`和`yarn-site.xml`文件,禁用内存检查。然后,重启Hadoop集群,启动Spark集群,并通过`jps -ml`检查Spark Master和Worker。可以通过Web UI访问Spark状态,并使用`spark-shell`测试Scala交互环境及Spark on Yarn。最后,学习如何关闭Spark集群。

image.png
image.png

Spark安装教程

1. 检查jdk版本

检查jdk是否安装并且版本是否为1.8

javac -version
# javac 1.8.0_171

2. 获取Spark版本安装资源

本文以Spark3.1.2为例,资源详见文章上方。
https://dlcdn.apache.org/

3.环境变量

vim /etc/profile
export SPARK_HOME=/opt/software/spark-3.1.2
export PATH=$SPARK_HOME/bin:$PATH

4.配置文件

cd $SPARK_HOME/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh
------------------------------------------------
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop/
------------------------------------------------

cd $HADOOP_HOME/etc/hadoop
vim yarn-site.xml
------------------------------------------------
# 添加两个property
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
------------------------------------------------

5. 重启Hadoop集群(使配置生效)

stop-all.sh
start-all.sh

6. 启动Spark集群

/opt/software/spark-3.1.2/sbin/start-all.sh

6.1 查看Spark服务

jps -ml
----------------------------------------------------------------
1649 org.apache.spark.deploy.master.Master --host single --port 7077 --webui-port 8080
1707 org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://single:7077
----------------------------------------------------------------

6.2 访问Spark WEB UI

http://single01:8080/

7. 启动 Spark-Shell 测试 Scala 交互式环境

spark-shell --master spark://single:7077
----------------------------------------------------------------
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://single:4040
Spark context available as 'sc' (master = spark://single:7077, app id = app-20240315091621-0000).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/

Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_171)
Type in expressions to have them evaluated.
Type :help for more information.

scala> _
----------------------------------------------------------------

8. 测试Spark On Yarn

spark-shell --master yarn
----------------------------------------------------------------
Spark context Web UI available at http://single:4040
Spark context available as 'sc' (master = yarn, app id = application_1710465965758_0001).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/

Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_171)
Type in expressions to have them evaluated.
Type :help for more information.

scala>
----------------------------------------------------------------

9.关闭Spark集群

/opt/software/spark-3.1.2/sbin/stop-all.sh

image.png

目录
相关文章
|
6月前
Zeppelin安装教程
Zeppelin安装教程
62 1
|
3月前
|
Java 应用服务中间件 Windows
2022年最新最详细的tomcat安装教程和常见问的解决
这篇文章提供了2022年最新最详细的Tomcat安装教程,包括离线安装包的获取、官网下载步骤、JDK版本检查、环境变量配置,以及解决安装过程中可能遇到的常见问题,如乱码等。
2022年最新最详细的tomcat安装教程和常见问的解决
|
12月前
|
分布式计算 资源调度 安全
hadoop安装教程(一次填完所有的坑)
hadoop安装教程(一次填完所有的坑)
485 1
|
Java 应用服务中间件 开发工具
Tomcat安装及配置教程
Tomcat安装及配置教程
Tomcat安装及配置教程
|
6月前
|
分布式计算 Ubuntu Java
PySpark安装及WordCount实现(基于Ubuntu)
现在,你已经成功安装了PySpark并实现了WordCount示例。你可以根据实际需求修改脚本以处理不同的文本数据。
44 0
|
存储 Python Windows
python安装教程
python安装教程
227 0
|
分布式计算 Java 大数据
Spark 环境搭建_下载和解压 Spark 安装包|学习笔记
快速学习 Spark 环境搭建_下载和解压 Spark 安装包
Spark 环境搭建_下载和解压 Spark 安装包|学习笔记
|
SQL NoSQL Oracle
MySQL安装教程zip(图文详解)
MySQL安装教程zip(图文详解)
203 0
MySQL安装教程zip(图文详解)
|
SQL NoSQL 算法
MongoDB安装教程
mongodb是⾮关系型数据库 但是很像关系型 -⽀持的查询语⾔⾮常的强⼤ -索引(提⾼数据检索的效率) -⽀持的数据结构⽐较松散
258 0
MongoDB安装教程
|
分布式计算 Shell Spark
Spark安装及启动
Spark安装及启动
1383 1