hadoop节点HDFS数据分片过程

简介: 【5月更文挑战第18天】

image.png
Hadoop的HDFS(Hadoop Distributed File System)数据分片过程可以概括为以下几个关键步骤:

  1. 文件切分

    • 当一个文件被写入HDFS时,HDFS客户端会首先将文件切分成多个数据块(Block)。HDFS默认的一个数据块大小为128MB(这个值可以配置)。例如,一个512MB的文件会被切分成4个128MB的数据块。
  2. 数据块存储

    • 切分后的数据块会被存储到HDFS集群中的多个数据节点(DataNode)上。HDFS的设计保证了每个数据块在集群中有多个副本(默认为3个),以提高数据的可靠性和容错性。
    • 数据块的副本会被分配到不同的数据节点上,以确保数据的冗余和分散存储。
  3. 元数据管理

    • HDFS中的元数据(包括文件目录结构、文件属性、数据块位置等信息)由名称节点(NameNode)管理。
    • 当文件被切分并存储到数据节点后,NameNode会更新元数据以记录每个数据块的位置和副本信息。
  4. 数据访问

    • 当客户端需要读取文件时,它会向NameNode查询文件的元数据,获取数据块的位置信息。
    • 然后,客户端会直接从相应的数据节点上读取数据块,而不需要经过NameNode。这种设计提高了数据读取的效率和吞吐量。
  5. 容错与恢复

    • 如果某个数据节点出现故障或数据块损坏,HDFS会通过数据块的副本进行容错和恢复。
    • NameNode会检测数据块的完整性,如果发现数据块丢失或损坏,它会从其他副本中复制一个新的数据块到集群中。

总结来说,Hadoop的HDFS数据分片过程主要包括文件切分、数据块存储、元数据管理、数据访问和容错与恢复等步骤。这些步骤共同构成了HDFS高可靠性、高扩展性和高性能的分布式文件系统架构。

目录
相关文章
|
11月前
|
XML 存储 分布式计算
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。
1327 70
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
638 6
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
383 0
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
239 0
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
230 3
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
309 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
203 4
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
561 5
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
292 4
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
636 4

相关实验场景

更多