hadoop节点HDFS数据块基本概念

简介: 【5月更文挑战第19天】

image.png
Hadoop的HDFS(Hadoop Distributed File System)是一个分布式文件系统,用于在Hadoop集群中存储和处理大数据。在HDFS中,数据块(Block)是基本的存储单元,以下是关于HDFS数据块的基本概念:

  1. 数据块大小

    • 在Hadoop 1.x版本中,HDFS默认的数据块大小是64MB
    • 但在Hadoop 2.x及更高版本中,默认的数据块大小被调整为128MB
  2. 存储方式

    • HDFS中的文件被切分成多个数据块进行存储。
    • 如果一个文件的大小小于一个数据块的大小,它不会占用整个数据块的空间,只占用实际文件大小的空间。
  3. 数据块备份

    • 为了确保数据的可靠性和容错性,HDFS默认会对每个数据块进行备份。备份的数量(即副本数)可以在配置文件中设置。
    • 这些备份数据块会被分布在不同的DataNode上,以防止单点故障。
  4. 与数据节点(DataNode)的关系

    • 数据块实际上存储在DataNode节点中。DataNode是HDFS集群中的从服务器,负责实际的数据存储。
    • DataNode与NameNode(元数据节点)保持通信,接收NameNode的调度指令,存储和检索数据块。
  5. 与元数据节点(NameNode)的关系

    • NameNode是HDFS集群的主服务器,负责管理文件系统的命名空间和元数据。
    • NameNode保存了文件与数据块之间的映射关系,即知道哪些数据块属于哪个文件,以及这些数据块分布在哪些DataNode上。
  6. 总结

    • HDFS通过数据块的概念实现了大数据文件的分布式存储和管理。
    • 数据块的大小和备份数量可以根据集群的配置和需求进行调整。
    • 通过NameNode和DataNode的协同工作,HDFS能够确保数据的可靠性和高效性。
目录
相关文章
|
11月前
|
XML 存储 分布式计算
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。
1327 70
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
638 6
|
分布式计算 Hadoop Unix
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
293 1
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
253 0
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
383 0
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
230 3
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
309 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
203 4
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
561 5
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
292 4

相关实验场景

更多