备案控制台

开发者社区云计算文章正文

Hadoop-HDFS文件块大小的设置

2021-12-10 582

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hadoop-HDFS文件块大小的设置

文件分块

HDFS中文件在物理上分块存储
Hadoop2.x版本中默认文件块为： 128M
通过hdfs参数： dfs.blocksize 设置

文件块大小设置

（1）寻址时间：10ms
（2）传输时间：寻址时间为传输时间1%为最佳状态
因此：传输时间 = 10ms / 0.01 = 1s
（3）目前磁盘普遍传输速率： 100Mb/s （适合文件块：128M）
（4）固态硬盘（适合文件块：256M 甚至 512M）
固态硬盘不同品牌型号之间，平均大约在150~300M每秒。
最高可达500MB/s
结论：HDFS块大小设置主要取决于磁盘传输速率

太大太小的问题

（1）HDFS块设置太小，会增加寻址时间，程序一直在找块的位置。
（2）HDFS块设置太大，磁盘传输时间明细大于寻址时间，处理数据非常慢。

文章标签：

存储

关键词：

文件存储HDFS版文件

hadoop文件

hadoop设置

文件存储HDFS版文件设置

在渝老码农

目录

相关文章

刘大猫.

|

3天前

|

Java

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

刘大猫.

57 34 34

刘大猫.

|

2月前

|

Java

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

刘大猫.

62 2 2

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

武子康

|

2月前

Hadoop-09-HDFS集群 JavaClient 代码上手实战！详细附代码安装依赖上传下载文件扫描列表 PUT GET 进度条显示（二）

Hadoop-09-HDFS集群 JavaClient 代码上手实战！详细附代码安装依赖上传下载文件扫描列表 PUT GET 进度条显示（二）

武子康

44 3 3

武子康

|

2月前

|

分布式计算 Java Hadoop

Hadoop-09-HDFS集群 JavaClient 代码上手实战！详细附代码安装依赖上传下载文件扫描列表 PUT GET 进度条显示（一）

Hadoop-09-HDFS集群 JavaClient 代码上手实战！详细附代码安装依赖上传下载文件扫描列表 PUT GET 进度条显示（一）

武子康

41 2 2

武子康

|

2月前

|

分布式计算 Hadoop 网络安全

Hadoop-08-HDFS集群基础知识命令行上机实操 hadoop fs 分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

Hadoop-08-HDFS集群基础知识命令行上机实操 hadoop fs 分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

武子康

38 1 1

武子康

|

2月前

|

存储机器学习/深度学习缓存

Hadoop-07-HDFS集群基础知识分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

Hadoop-07-HDFS集群基础知识分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

武子康

51 1 1

wljslmz

|

4月前

|

存储分布式计算 Hadoop

当两个客户端尝试访问 HDFS 中的同一个文件时会发生什么？

【8月更文挑战第31天】

wljslmz

83 0 0

听风de歌

|

5月前

|

分布式计算 Hadoop Java

Hadoop编辑hadoop-env.sh文件

【7月更文挑战第19天】

听风de歌

335 5 5

听风de歌

|

5月前

|

分布式计算 Java Hadoop

Hadoop找到JAVA_HOME变量，并设置其值

【7月更文挑战第19天】

听风de歌

160 3 3

武子康

|

2月前

|

分布式计算 Kubernetes Hadoop

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

武子康

177 6 6

热门文章

最新文章

Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

Hadoop 2.x本地库native lib及如何源码编译

linux下安装hadoop步骤

【centos6.5 hadoop2.7 _64位一键安装脚本】有问题加我Q直接问

发布Apache Hadoop 2.6.0——异构存储，长时间运行的服务与滚动升级支持

cdh5.3.10_hadoop环境迁移之主机IP修改

hadoop安装小记

Hadoop2.6.0运行mapreduce之推断（speculative）执行（下）

Docker + Hadoop 搭建完全分布式

hadoop环境初始化搭建

Hadoop的HDFS问题

阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS

[AIGC 大数据基础]浅谈hdfs

[AIGC 大数据基础] 浅谈hdfs

Hive【基础知识 02-1】【Hive CLI 命令行工具使用】【准备阶段-建库、建表、导入数据、编写测试SQL脚本并上传HDFS】

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

面经：HDFS分布式文件系统原理与故障排查

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】（部分图片来源于网络）【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】（图片来源于网络）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop 分布式文件系统 HDFS

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

阿里云无影云电脑免费试用，最长可试用3个月