文档备案控制台

开发者社区大数据与机器学习文章正文

【赵渝强老师】基于ViewFS的HDFS联邦架构

2024-11-14 436

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍了HDFS联盟（Federation）的概念及其在大数据存储中的应用。HDFS联盟通过允许多个NameNode管理不同的命名空间，实现了负载均衡和NameNode的水平扩展。文章还详细解释了基于ViewFS的联盟架构，以及该方案的局限性。附带的视频进一步讲解了相关概念。

在实际的生产环境中，一般都会搭建HDFS的集群来进行大数据文件的存储。而作为集群来说，应该提供基本负载均衡的功能。HDFS的联盟Federation便是负载均衡的一种具体实现方式。另一方面，通过使用HDFS的联盟Federation也可以对NameNode进行水平的扩展。

视频讲解如下：

一、什么是联盟？

HDFS提供的存储服务实际上包含两个部分，即：命名空间管理（Namespace management）和块存储管理服务（Block/Storage management）。HDFS中的目录、文件和数据块都属于命名空间。命名空间管理则是指对目录和文件的基本操作，如：创建、修改、删除等；而块存储管理服务则主要负责将数据按照数据块进行存储。图1（摘自Hadoop官网）明了它们之间的关系。

如果在整个HDFS中只存在一个命名空间并且只由一个NameNode来维护，必然存在单点故障的问题；也不利于集群的扩展和性能的提高。因此，HDFS引入了联盟的机制。简单来说，就是让HDFS可以支持多个命名空间，并由不同的NameNode来进行维护。

图2（摘自Hadoop官网）使用了多个NameNode来维护不同的命名空间，就相当于在MySQL数据库中创建不同的数据库一样，它们彼此之间可以相互逻辑隔离。尽管是不同的命名空间，但是从数据块存储的角度来看，这些NameNode维护的命名空间是使用的共享存储的方式来存储数据块，即：后端的DataNode将会为每一个命名空间提供存储的空间。

另一方面，由于NameNode会接收客户端的请求。如果存在多个NameNode，那么客户端的请求应该由谁进行处理呢？这时候我们就需要有ViewFS（视图文件系统）的支持。ViewFS的本质就是一系列的路由规则，这些路由规则需要事先创建好。客户端的请求先提交到ViewFS上，再根据事先配置好的路由规则，进而转发给不同的NameNode进行处理。

二、基于ViewFS的联盟架构

下图展示了以四个节点为例来部署联盟的架构。这里使用了四台虚拟机，分别是：bigdata112、bigdata113、bigdata114和bigdata115。在bigdata112和bigdata113上分别部署两个NameNode；在bigdata114和bigdata115上各部署一个DataNode。而ViewFS可以跟NameNode部署在同一个节点上，即：bigdata112和bigdata113。

在解决NameNode扩展能力方面，HDFS虽然提供了ViewFS的联盟架构，但这个方案有很强的局限性，主要体现在以下几个方面：

HDFS路径Scheme需要变为ViewFs，ViewFs路径和其他Scheme路径互不兼容。比如DistributedFileSystem无法处理ViewFs的路径，也就是说如果启用ViewFS，则需要将Hive的元数据管理、ETL脚本、MR/Spark作业中的所有HDFS路径修改为ViewFS。
ViewFS是基于客户端实现的，需要用户在客户端进行相关的配置，那么后面对客户端升级就会比较困难，这个客户端相当于重客户端了。
新增或者修改路径映射，需要多方配合完成，维护成本比较高。

文章标签：

存储

分布式计算

负载均衡

块存储

Hadoop

关键词：

赵渝强架构

文件存储HDFS版架构

赵渝强文件存储HDFS版架构

赵渝强文件存储HDFS版

hdfs架构

赵渝强老师

目录

相关文章

赵渝强老师

|

XML 存储分布式计算

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

HDFS（Hadoop分布式文件系统）由三个核心组件构成：NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求，维护元数据文件fsimage和edits；DataNode存储实际的数据块，默认大小为128MB；SecondaryNameNode定期合并edits日志到fsimage中，但不作为NameNode的热备份。通过这些组件的协同工作，HDFS实现了高效、可靠的大规模数据存储与管理。

赵渝强老师

1780 70 75

赵渝强老师

|

存储 SQL 数据库

【赵渝强老师】OceanBase的部署架构

OceanBase数据库支持两种部署架构：无共享（Shared-Nothing，SN）模式和共享存储（Shared-Storage，SS）模式。SN模式下，各节点对等，具备高扩展性、可用性和性能，运行于普通PC服务器集群；SS模式采用存算分离架构，租户数据存储在共享对象存储上，本地缓存热点数据。两种模式均支持高可用与多副本一致性，适用于不同业务场景。

赵渝强老师

695 1 2

赵渝强老师

|

9月前

|

存储 NoSQL 前端开发

【赵渝强老师】MongoDB的分布式存储架构

MongoDB分片通过将数据分布到多台服务器，实现海量数据的高效存储与读写。其架构包含路由、配置服务器和分片服务器，支持水平扩展，结合复制集保障高可用性，适用于大规模生产环境。

赵渝强老师

605 1 2

赵渝强老师

|

大数据

【赵渝强老师】大数据主从架构的单点故障

大数据体系架构中，核心组件采用主从架构，存在单点故障问题。为提高系统可用性，需实现高可用（HA）架构，通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能，确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。

赵渝强老师

421 0 0

赵渝强老师

|

存储缓存分布式数据库

【赵渝强老师】HBase的体系架构

HBase是一种基于BigTable思想的列式存储NoSQL数据库，适合数据分析与处理。其主从架构包含HBase HMaster、Region Server和ZooKeeper。HMaster负责Region分配及表管理；Region Server执行数据读写操作，并包含WAL预写日志、Block Cache读缓存和MemStore写缓存；ZooKeeper维护集群状态并协调分布式系统工作。通过视频讲解与架构图示，详细解析各组件功能与协作机制。

赵渝强老师

864 11 12

赵渝强老师

|

存储关系型数据库 MySQL

【赵渝强老师】TiDB的体系架构

TiDB是由PingCAP公司自主研发的开源分布式关系型数据库，支持HTAP（混合事务分析处理），具备弹性扩缩容、金融级高可用、实时分析等特性，兼容MySQL协议。其架构分为存储集群（行存TiKV与列存TiFlash）、调度集群（PD实例）和计算集群（TiDB实例）。相比传统单机数据库，TiDB优势显著：纯分布式设计、高扩展性、自动故障恢复、ACID事务支持及丰富的工具生态，适用于高可用与强一致要求的场景。

赵渝强老师

552 10 10

赵渝强老师

|

存储 SQL 并行计算

【赵渝强老师】达梦数据库MPP集群的架构

达梦数据库提供大规模并行处理（MPP）架构，以低成本实现高性能并行计算，满足海量数据存储和复杂查询需求。DM MPP采用完全对等无共享体系，消除主节点瓶颈，通过多节点并行执行提升性能。其执行流程包括主EP生成计划、分发任务、各EP并行处理及结果汇总返回。为确保高可用性，建议结合数据守护部署。

赵渝强老师

633 0 1

赵渝强老师

|

存储缓存 NoSQL

【赵渝强老师】Memcached集群的架构

Memcached 是一个高性能的分布式内存对象缓存系统，通过在内存中维护一个巨大的 Hash 表来存储各种格式的数据，如图像、视频、文件及数据库检索结果等。它主要用于减轻数据库压力，提高网站系统的性能。Memcached 不支持数据持久化，因此仅作为缓存技术使用。其数据分布式存储由客户端应用程序实现，而非服务端。

赵渝强老师

505 0 0

【赵渝强老师】Memcached集群的架构

赵渝强老师

|

调度 Docker 容器

【赵渝强老师】Docker Swarm集群的体系架构

Docker Swarm自1.12.0版本起集成至Docker引擎，无需单独安装。它内置服务发现功能，支持跨多服务器或宿主机创建容器，形成集群提供服务。相比之下，Docker Compose仅限于单个宿主机。Docker Swarm采用主从架构，Swarm Manager负责管理和调度集群中的容器资源，用户通过其接口发送指令，Swarm Node根据指令创建容器运行应用。

赵渝强老师

436 0 0

赵渝强老师

|

存储缓存分布式计算

【赵渝强老师】基于RBF的HDFS联邦架构

最新版Hadoop实现了基于Router的联盟架构，增强了集群管理能力。Router将挂载表从客户端中分离，解决了ViewFS的问题。RBF架构包括Router和State Store两个模块，其中Router作为代理服务，负责解析ViewFS并转发请求至正确子集群，State Store则维护子集群的状态和挂载表信息。

赵渝强老师

541 0 0

大数据与机器学习

热门文章

最新文章

身怀绝技的开发者们，快来DataV玩转可视化组件

分布式快照算法: Chandy-Lamport

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

2017杭州云栖大会FAQ（持续更新中）

Kibana：数据分析的可视化利器

【玩转数据系列六】文本分析算法实现新闻自动分类

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

干货：解码OneData，阿里的数仓之路。

基于阿里云DataV的智慧园区能耗可视化大屏实践

DataWorks AI助理：在钉钉里让AI助理帮你盯任务、修问题

【淘宝API】商品列表采集

AR智能眼镜安防应用核心指标：识别距离筑牢防线

2026架构前沿：将Declarative Crawler（声明式爬虫）引入你的技术栈

Agentic AI 的预算，不能只花在模型上

AI搜索引用转化链路的数据分析：三层漏斗与优化方法

看得见，不代表人人都看得懂：数据可视化为什么越来越需要“无障碍设计”？

AI 时代的 API：大模型如何重塑接口设计

GEO岗位数据分析：20份JD拆解与AI搜索优化师能力模型解析

相关课程

更多

架构的演进

MySQL企业常见架构与调优经验分享

企业Web常用架构LAMP-LNMP实战

企业级互联网分布式系统应用架构学习

Hadoop 分布式文件系统 HDFS

高校精品课-上海交通大学 -企业级应用体系架构

相关电子书

更多

PolarDB开发者大会：PolarDB面向云存储的架构优化

PolarDB-X一体化HTAP架构，助力企业级查询分析加速

海量数据分布式存储——Apache HDFS之最新进展

相关实验场景

更多

每个IT人都想学的“Web应用上云经典架构”实战

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！