Hadoop-NameNode内存预估

简介: NameNode通过NetworkTopology维护整个集群的树状拓扑结构;拓扑结构的叶子节点DatanodeDescriptor是标识DataNode的关键结构。DataNode节点一般会挂载多块不同类型存储单元;StorageMap描述的正是存储介质DatanodeStorageInfo集合(Map默认长度16)。

DataNode管理信息预估

在64位JVM中
(1)DataNodeId 预计 64B
(2)DataNodeInfo 预计 114B
(3)DatanodeDescriptor 预计 100B
(4)DatanodeStorageInfo 预计 109B
假设集群中包括2000个DataNode节点
计算NameNode所需总量:

( 64 + 114 + 100 + 109 * 16 ) * 2000 = 约 4M

BlockInfo文件块预估

BlocksMap的核心功能是通过BlockID快速定位到具体的BlockInfo
BlockInfo继承自Block,除了Block对象中BlockID,numbytes和timestamp信息外
最重要的是该Block物理存储所在的对应DataNode列表信息triplets。
主要参数:
(1)假设集群中包括2000个DataNode节点
(2)每个节点10T的可用磁盘,文件块大小为256M
(3)整个集群共 81,920,000 个数据块
(4)如果三副本,并80%磁盘报警,最大可以存储约5000T数据
文件块计算
(1)文件: 224 + 2 * 文件名长度 = 250B
(2)路径: 264 + 2 * 文件名长度 = 290B
(3)Block : 152 + 72 * 副本数3 = 368B
(4)假设: 81,920,000 个文件块,对应 81,920,000 个文件,每个文件一个路径
计算NameNode所需总量:

( 250 + 290 + 368 )b * 81920000 = 约 70G
相关文章
|
2月前
|
存储 分布式计算 监控
Hadoop内存溢出
【7月更文挑战第12天】
71 8
|
3月前
|
存储 分布式计算 资源调度
如何优化Hadoop集群的内存使用?
【6月更文挑战第18天】如何优化Hadoop集群的内存使用?
86 6
|
4月前
|
存储 分布式计算 资源调度
[hadoop3.x]HDFS中的内存存储支持(七)概述
[hadoop3.x]HDFS中的内存存储支持(七)概述
76 0
|
消息中间件 存储 缓存
关于Hadoop集群物理及虚拟内存的检测的设置说明
关于Hadoop集群物理及虚拟内存的检测的设置说明
273 0
关于Hadoop集群物理及虚拟内存的检测的设置说明
|
分布式计算 Oracle Hadoop
Hadoop 最讨厌的报错:运行VirtualBox提示0x00000000错误“0x00000000指令引用的0x00000000内存该内存不能为written?
Hadoop 最讨厌的报错:运行VirtualBox提示0x00000000错误“0x00000000指令引用的0x00000000内存该内存不能为written?
560 0
|
1月前
|
存储 分布式计算 Hadoop
|
19天前
|
图形学 数据可视化 开发者
超实用Unity Shader Graph教程:从零开始打造令人惊叹的游戏视觉特效,让你的作品瞬间高大上,附带示例代码与详细步骤解析!
【8月更文挑战第31天】Unity Shader Graph 是 Unity 引擎中的强大工具,通过可视化编程帮助开发者轻松创建复杂且炫酷的视觉效果。本文将指导你使用 Shader Graph 实现三种效果:彩虹色渐变着色器、动态光效和水波纹效果。首先确保安装最新版 Unity 并启用 Shader Graph。创建新材质和着色器图谱后,利用节点库中的预定义节点,在编辑区连接节点定义着色器行为。
70 0
|
25天前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
26天前
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
|
27天前
|
资源调度 分布式计算 Hadoop
揭秘Hadoop Yarn背后的秘密!它是如何化身‘资源大师’,让大数据处理秒变高效大戏的?
【8月更文挑战第24天】在大数据领域,Hadoop Yarn(另一种资源协调者)作为Hadoop生态的核心组件,扮演着关键角色。Yarn通过其ResourceManager、NodeManager、ApplicationMaster及Container等组件,实现了集群资源的有效管理和作业调度。当MapReduce任务提交时,Yarn不仅高效分配所需资源,还能确保任务按序执行。无论是处理Map阶段还是Reduce阶段的数据,Yarn都能优化资源配置,保障任务流畅运行。此外,Yarn还在Spark等框架中展现出灵活性,支持不同模式下的作业执行。未来,Yarn将持续助力大数据技术的发展与创新。
27 2

相关实验场景

更多