Hadoop-HDFS文件块大小的设置

简介: Hadoop-HDFS文件块大小的设置

文件分块

HDFS中文件在物理上分块存储
Hadoop2.x版本中默认文件块为: 128M
通过hdfs参数: dfs.blocksize 设置

文件块大小设置

(1)寻址时间:10ms
(2)传输时间:寻址时间为传输时间1%为最佳状态
因此: 传输时间 = 10ms / 0.01 = 1s
(3)目前磁盘普遍传输速率: 100Mb/s (适合文件块:128M)
(4)固态硬盘(适合文件块:256M 甚至 512M)
固态硬盘不同品牌型号之间,平均大约在150~300M每秒。
最高可达500MB/s
结论:HDFS块大小设置主要取决于磁盘传输速率

太大太小的问题

(1)HDFS块设置太小,会增加寻址时间,程序一直在找块的位置。
(2)HDFS块设置太大,磁盘传输时间明细大于寻址时间,处理数据非常慢。

相关文章
|
2月前
|
数据采集 分布式计算 资源调度
|
20天前
|
存储 分布式计算 Hadoop
|
2月前
|
分布式计算 Hadoop Java
hadoop环境变量设置问题
【7月更文挑战第15天】
53 11
|
2月前
|
分布式计算 Hadoop Java
Hadoop编辑hadoop-env.sh文件
【7月更文挑战第19天】
53 5
|
2月前
|
分布式计算 Java Hadoop
Hadoop找到JAVA_HOME变量,并设置其值
【7月更文挑战第19天】
37 3
|
2月前
|
分布式计算 Hadoop Shell
Hadoop修改bashrc或profile文件
【7月更文挑战第16天】
28 2
|
2月前
|
分布式计算 Hadoop 关系型数据库
实时计算 Flink版操作报错合集之Hadoop在将文件写入HDFS时,无法在所有指定的数据节点上进行复制,该如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
2月前
|
数据采集 分布式计算 Hadoop
|
3月前
|
SQL JSON 数据处理
实时计算 Flink版产品使用问题之把hdfs集群里的core-site.xml hdfs.xml两个文件放到flink/conf/目录下,启动集群说找不到hdfs,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
3月前
|
存储 分布式计算 Hadoop

热门文章

最新文章

相关实验场景

更多