Hadoop和Spark集群搭建的大致流程

简介:

【Hadoop】

1.首先,准备好Hadoop安装包和JDK的安装与配置
2.建立各个机器之间的ssh信任关系,即互信
3.修改hadoop配置文件
【core、hdfs、yarn、mapred】
默认配置文件:core-default.xml、hdfs-default.xml、mapred-default.xml、yarn-default.xml
特定配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
特定配置文件会覆盖默认的配置项
image
image
image
【core-site.xml】
是整个Hadoop通用的配置,集群的每个主机都存在。
分布式文件系统名字、临时目录以及其他与网络配置相关的参数
【hdfs-site.xml】
配置HDFS系统的运行时属性和各个数据节点上文件的物理存储相关的属性
主-辅节点存放元数据文件表(fsimage文件)的目录
主-辅节点存储元数据事务处理文件(edits文件)的目录
默认数据块大小
数据块备份数量
名称节点和数据节点通信的服务器线程数,默认为10
【mapred-site.xml】
保护了与CPU、内存、磁盘I/O和网络相关的参数
任务是本地作业执行器还是提交到yarn集群
运行Map或Reduce任务的JVM堆大小
运行Map和Reduce任务的容器的内存大小
存储中间数据文件的本地目录
作业跟踪器(YARN)的服务器进程数量
任务重试的最大次数
【yarn-site.xml】
配置由YARN框架提供的通用服务守护进程的属性,比如资源管理器和节点管理器
运行资源管理器的主机名以及端口号
启动容器的最大最小内存量和虚拟CPU内核数

【Spark】

在有JDK和Hadoop的基础上,安装Scala
修改配置文件
【spark属性、环境变量、日志配置】
属性可以直接在sparkconf上配置给sparkcontext
spark shell和spark-submit工具支持两种方式动态加载配置,第一种是命令行选项,第二种运行./bin/spark-submit实现
当然spark-submit也会在conf/spark-defaults.conf中读取配置选项
driver程序运行时需要的cpu内核数和内存数
每个executor进程使用的内存数

目录
相关文章
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
96 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
70 1
|
2月前
|
分布式计算 大数据 Spark
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
43 1
|
2月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
32 0
|
2月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
29 0
|
2月前
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
31 0
|
2月前
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
44 0
|
2月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
57 0
|
2月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
85 0
|
2月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
47 0