【Deepin 20系统】Linux 系统安装Spark教程及使用

简介: 在Deepin 20系统上安装和使用Apache Spark的详细教程,包括安装Java JDK、下载和解压Spark安装包、配置环境变量和Spark配置文件、启动和关闭Spark集群的步骤,以及使用Spark Shell和PySpark进行简单操作的示例。

系统:Deepin 系统 Debian内核

1 安装Java JDK

查看是否安装了java环境

java -version

如果没有安装

安装方法:https://zhuanlan.zhihu.com/p/343227137

2 下载安装包

清华镜像下载,快速:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.8/

解压命令

tar -zxvf spark-2.4.8-bin-hadoop2.7.tgz

把解压缩的文件夹spark-2.4.8-bin-hadoop2.7重命名为spark

3 配置环境

(1)配置文件vim spark-env.sh

cd spark/conf

mv spark-env.sh.template spark-env.sh

修改配置文件vim spark-env.sh

Java_HOME根据自己的电脑安装路径去配置

export JAVA_HOME=/usr/java/jdk1.8.0_201-amd64

export SPARK_MASTER_HOST=192.168.86.134

export SPARK_MASTER_PORT=7077

(2)配置配置slaves

mv slaves.template slaves

vim slaves

添加:

Worker的IP,根据自己的需要来添加

(3)配置环境变量:

修改配置文件:

vim /etc/profile

增加以下内容:

export SPARK_HOME=spark安装路径

export PATH= P A T H : PATH: PATH:SPARK_HOME/bin

export PATH= P A T H : PATH: PATH:SPARK_HOME/sbin

刷新:

source /etc/profile

4 启动和关闭

(1)启动主节点:

start-master.sh

(2)启动从节点:

start-slaves.sh

(3)启动shell:

spark-shell

(4)通过网页端查看:

http://localhost:8080/

Spark中内置有Tomcat,故端口号默认为8080

(5)关闭主节点:

stop-master.sh

(6)关闭从节点:

stop-slaves.sh

5 例子

进入spark安装位置, 然后进入spark中的 bin 文件夹

(1)运行: 输入:spark-shell开启spark(scala)

自己生成一个txt文件,放在根目录/1.txt

1 2 3 4 5 6

把输入文件加载进RDD:

val textFile = sc.textFile(“/1.txt”)

MapReduce操作,以work为key,1为value:

val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

查看每个单词出现的次数

wordCounts.collect()

输出: Array[(String, Int)] = Array((6,1), (3,1), (4,1), (1,1), (5,1), (2,1))

(2)运行: ./bin/pyspark (python)

目录
相关文章
|
23天前
|
Linux Python
Linux 中某个目录中的文件数如何查看?这篇教程分分钟教会你!
在 Linux 系统中,了解目录下文件数量是常见的需求。本文介绍了四种方法:使用 `ls` 和 `wc` 组合、`find` 命令、`tree` 命令以及编程实现(如 Python)。每种方法都附有详细说明和示例,适合不同水平的用户学习和使用。掌握这些技巧,可以有效提升系统管理和日常使用的效率。
116 6
|
28天前
|
Linux Python
Linux 中某个目录中的文件数如何查看?这篇教程分分钟教会你!
在 Linux 系统中,了解目录下的文件数量是常见的需求。本文介绍了多种方法,包括使用 `ls` 和 `wc` 命令组合、`find` 命令、`tree` 命令以及编程方式(如 Python)。无论你是新手还是有经验的用户,都能找到适合自己的方法。掌握这些技巧将提高你在 Linux 系统中的操作效率。
32 4
|
2月前
|
Linux Docker 容器
Centos安装docker(linux安装docker)——超详细小白可操作手把手教程,包好用!!!
本篇博客重在讲解Centos安装docker,经博主多次在不同服务器上测试,极其的稳定,尤其是阿里的服务器,一路复制命令畅通无阻。
1412 4
Centos安装docker(linux安装docker)——超详细小白可操作手把手教程,包好用!!!
|
2月前
|
关系型数据库 MySQL Linux
基于阿里云服务器Linux系统安装Docker完整图文教程(附部署开源项目)
基于阿里云服务器Linux系统安装Docker完整图文教程(附部署开源项目)
333 3
|
2月前
|
Linux C语言 C++
vsCode远程执行c和c++代码并操控linux服务器完整教程
这篇文章提供了一个完整的教程,介绍如何在Visual Studio Code中配置和使用插件来远程执行C和C++代码,并操控Linux服务器,包括安装VSCode、安装插件、配置插件、配置编译工具、升级glibc和编写代码进行调试的步骤。
315 0
vsCode远程执行c和c++代码并操控linux服务器完整教程
|
2月前
|
Linux 开发工具 Docker
各个类linux服务器安装docker教程
各个类linux服务器安装docker教程
68 0
|
23天前
|
监控 Linux
如何检查 Linux 内存使用量是否耗尽?这 5 个命令堪称绝了!
本文介绍了在Linux系统中检查内存使用情况的5个常用命令:`free`、`top`、`vmstat`、`pidstat` 和 `/proc/meminfo` 文件,帮助用户准确监控内存状态,确保系统稳定运行。
134 6
|
24天前
|
Linux
在 Linux 系统中,“cd”命令用于切换当前工作目录
在 Linux 系统中,“cd”命令用于切换当前工作目录。本文详细介绍了“cd”命令的基本用法和常见技巧,包括使用“.”、“..”、“~”、绝对路径和相对路径,以及快速切换到上一次工作目录等。此外,还探讨了高级技巧,如使用通配符、结合其他命令、在脚本中使用,以及实际应用案例,帮助读者提高工作效率。
64 3
|
24天前
|
监控 安全 Linux
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景,包括 ping(测试连通性)、traceroute(跟踪路由路径)、netstat(显示网络连接信息)、nmap(网络扫描)、ifconfig 和 ip(网络接口配置)。掌握这些命令有助于高效诊断和解决网络问题,保障网络稳定运行。
60 2
|
1月前
|
缓存 监控 Linux