大数据体系架构中的核心组件都是主从架构,即:存在一个主节点和多个从节点,从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。
从上图可以看出大数据的核心组件都是一种主从架构,而只要是主从架构就存在单点故障的问题。因为整个集群中只存在一个主节点,如果这个主节点出现的故障或者发生了宕机,就会造成整个集群无法正常的工作。因此在实际的生产环境中就需要实现大数据HA的功能,即:High Availablity(高可用的架构)。HA的思想其实非常简单:既然整个集群中只有一个主节点存在单点故障的问题,那么只需要搭建多个主节点就可以解决这样的问题了,这就是HA的核心思想。
视频讲解如下:
要解决大数据主从架构的单点故障问题,需要使用到ZooKeeper。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是大数据体系中的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。下图展示了基于ZooKeeper的HDFS HA架构。