文档备案控制台

开发者社区大数据文章正文

基于mac构建大数据伪分布式学习环境（七）-部署Scala及Spark学习环境

2022-10-20 263

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文主要讲解如何部署Scala与单机伪分布式Spark计算引擎

1.解压scala 2.12.11

2.配置环境变量

exportSCALA_HOME=/data/soft/scala-2.12.11

exportPATH=.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$PATH

网络异常，图片无法展示

|

10.部署Spark

1.解压spark-2.4.3-bin-hadoop2.7.tgz

tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz

2.重命名spark-env.sh.template 并配置

mv spark-env.sh.template spark-env.sh

vi spark-env.sh

exportJAVA_HOME=/data/soft/jdk1.8

exportSPARK_MASTER_HOST=bigdata01

3.重命名slaves.template 并配置

bigdata

4.启动Spark

网络异常，图片无法展示

|

5.8080端口查看

网络异常，图片无法展示

|

6.配置Spark on Yarn

在spark-env.sh下添加一行

export HADOOP_CONF_DIR=/data/soft/hadoop-3.2.0/etc/hadoop

7.往Hadoop集群中提交Spark任务测试

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster examples/jars/spark-examples_2.11-2.4.3.jar 2

网络异常，图片无法展示

|

网络异常，图片无法展示

|

文章标签：

云原生大数据计算服务 MaxCompute

分布式计算

资源调度

Spark

Hadoop

Scala

大数据

关键词：

环境apache spark

apache spark学习

云原生大数据计算服务 MaxCompute环境

构建云原生大数据计算服务 MaxCompute

云原生大数据计算服务 MaxCompute构建

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

颜学长

目录

相关文章

青云交（Java大数据AI云原生Python）

|

11月前

|

数据采集搜索推荐算法

Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用（274）

本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用，涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索，为教育数字化转型提供完整技术解决方案。

青云交（Java大数据AI云原生Python）

456 10 10

zzy的aly

|

数据采集数据可视化大数据

大数据体系知识学习（三）：数据清洗_箱线图的概念以及代码实现

这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图，以检测和处理数据集中的异常值。

zzy的aly

510 1 1

大数据体系知识学习（三）：数据清洗_箱线图的概念以及代码实现

小Lee

|

存储 SQL 分布式计算

大数据学习

【10月更文挑战第15天】

小Lee

405 1 1

zzy的aly

|

分布式计算大数据 Linux

大数据体系知识学习（二）：WordCount案例实现及错误总结

这篇文章介绍了如何使用PySpark进行WordCount操作，包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题，并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。

zzy的aly

324 1 1

Echo_Wish

|

8月前

|

机器学习/深度学习传感器分布式计算

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

Echo_Wish

593 14 14

1062754335

|

10月前

|

数据采集分布式计算 DataWorks

ODPS在某公共数据项目上的实践

本项目基于公共数据定义及ODPS与DataWorks技术，构建一体化智能化数据平台，涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理，强化数据安全与流通，提升业务效率与决策能力，助力数字化改革。

1062754335

370 4 4

Echo_Wish

|

9月前

|

机器学习/深度学习运维监控

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

Echo_Wish

869 0 0

Echo_Wish

|

8月前

|

传感器人工智能监控

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

Echo_Wish

271 14 14

Echo_Wish

|

8月前

|

机器学习/深度学习传感器监控

吃得安心靠数据？聊聊用大数据盯紧咱们的餐桌安全

吃得安心靠数据？聊聊用大数据盯紧咱们的餐桌安全

Echo_Wish

283 1 1

热门文章

最新文章

蚂蚁金服高级技术专家徐红星：蚂蚁金服大数据开放式创新实践

阿里云大数据利器Maxcompute-使用mapjoin优化查询

大数据技术之DataX

MaxCompute问答整理之9月

阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区

2016大数据创新大赛——机场客流量的时空分布预测模型解析

小红书如何实现高效推荐？解密背后的大数据计算平台架构

如何使用Tunnel SDK上传/下载MaxCompute复杂类型数据

【大数据开发运维解决方案】ogg(GoldenGate)三大进程常用参数

ARM+麒麟大数据环境搭建：ZK

【赵渝强老师】Scala编程语言

Fuel 爬虫：Scala 中的图片数据采集与分析

如何使用Scala和Selenium爬取知乎视频并保存到本地

淘宝图片爬虫：Scala与Curl的高效集成

Scala 文件 I/O

Scala 提取器(Extractor)

Scala 异常处理

Scala 正则表达式

Scala 模式匹配

Scala Trait(特征)

相关课程

更多

大数据Impala教程

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第五阶段）

2020版大数据实战项目之DMP广告系统（第六阶段）

相关电子书

更多

MaxCompute Serverless 架构演进

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

下一篇

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎