Spark SQL CLI部署CentOS分布式集群Hadoop上方法-阿里云开发者社区

Spark SQL CLI部署CentOS分布式集群Hadoop上方法

2022-10-11 208

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 RDS MySQL，集群系列 2核4GB

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS PostgreSQL，集群系列 2核4GB

简介： Spark SQL CLI部署CentOS分布式集群Hadoop上方法

前言

配置的虚拟机为Centos6.7系统，hadoop版本为2.6.0版本，先前已经完成搭建CentOS部署Hbase、CentOS6.7搭建Zookeeper和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上完成了Hive详解以及CentOS下部署Hive和Mysql和Spark框架在CentOS下部署搭建。现在进行Spark的组件Spark SQL的部署。

首先我所部署的集群配置为

CentOS-6.7

Spark-2.4.7

Hive-2.3.7

若有版本不兼容的问题可参考其他版本的部署。

若要使用Spark SQL CLI的方式访问操作Hive表数据，需要对Spark SQL进行如下所示的环境配置，将Spark SQL 连接到一个部署好的Hive上。

当然即使没有部署好Hive，Spark SQL也是可以运行的，但是Spark SQL会在当前的工作目录中创建出自己的Hive元数据库，称为metastore_db。

现在正式进行配置。

（1）寻找自己所安装的Hive，进入到conf中：

将hive-site.xml文件复制到spark的conf目录下：

cp /usr/local/hive-2.3.7/conf/hive-site.xml /usr/local/spark2.4.7/conf

（2）现在我们需要MySQL驱动。缺少MySQL驱动可以自行在官网上下载

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.40.tar.gz

不过既然配置过Hive想必MySQL驱动以及放在原有的Hive的lib目录下

将该驱动放入spark的jars中（spark升到2.0.0版本后lib改为了jars目录）

cp mysql-connector-java-5.1.40-bin.jar /usr/local/spark2.4.7/jars

然后在spark的spark-env.sh文件下添加一行路径

export SPARK_CLASSPATH=/usr/local/spark2.4.7/jars/mysql-connector-java-5.1.40-bin.jar

（3）启动MySQL服务

service mysqld start

（4）启动Hive的metastore服务：

（5）修改日志级别。

进入spark的conf目录：

将该目录下的log4j.properties.template文件复制为log4j.properties，修改该文件：

（6）启动Spark集群。

./start-all.sh

（7）启动spark-sql。进入spark的bin目录下：

测试完后验证部署成功。

相关实践学习

如何在云端创建MySQL数据库

开始实验后，系统会自动创建一台自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS。

全面了解阿里云能为你做什么

阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程，来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品：云服务器ECS 云服务器 ECS（Elastic Compute Service）是一种弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs

Spark SQL CLI部署CentOS分布式集群Hadoop上方法

前言

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像