深度解析大快DKadoop大数据运维管理平台功能-阿里云开发者社区

深度解析大快DKadoop大数据运维管理平台功能

2019-01-11 2143

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

全局流量管理 GTM，标准版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： DKM 是DKHadoop管理平台。作为大数据平台端到端Apache Hadoop 的管理应用，DKM 对 DKH 的每个部件都提供了细粒度的可视化和控制。通过DKM ，运维人员是可以提高集群的性能，提升服务质量，提高合规性并降低管理成本。

之前几周的时间一直是在围绕DKhadoop的运行环境搭建写分享，有一些朋友留言索要了dkhadoop安装包，不知道有没有去下载安装一探究竟。关于DKHadoop下载安装基本已经讲清楚了，这几天有点空闲把大快DKM大数据运维管理平台的内容整理了一些，作为DKHadoop相配套的管理平台，是有必要对DKM有所了解的。

DKM 是DKHadoop管理平台。作为大数据平台端到端Apache Hadoop 的管理应用，DKM 对 DKH 的每个部件都提供了细粒度的可视化和控制。通过DKM ，运维人员是可以提高集群的性能，提升服务质量，提高合规性并降低管理成本。

DKM 设计的目的是为了使得对于企业数据中心的管理变得简单和直观。通过DKM ，可以方便地部署，并且集中式的操作完整的大数据软件栈。该应用软件会自动化安装过程，从而减少了部署集群的时间。通过DKM 可以提供一个集群范围内的节点实时运行状态视图。同时，还提供了一个中央控制台，可以用于配置集群。总结DKM 能够提供的功能主要有以下几点：

1. 自动化Hadoop 安装过程，大幅缩短部署时间；

2. 提供实时的集群概况，例如节点，服务的运行状况；

3. 提供了集中的中央控制台对集群的配置进行更改；

4. 包含全面的报告和诊断工具，帮助优化性能和利用率；

基本功能：DKM的基本功能主要可以分为四大模块：管理功能，监控功能，诊断功能和集成功能。本篇我们就先来看以下管理功能：

1、批量部署

我们都知道Hadoop 本身是一个分布式的系统，因此在安装时，需要对每一个节点进行组件的安装，并且由于是开源软件，其安装过程相对比较复杂，Hadoop 每个组件都需要做很多的配置工作，这一点相信各位深有体会。DKH 提供了DKM 来自动化安装部署Hadoop 。大大缩短了Hadoop 的安装时间，同时也简化了安装Hadoop 的过程。（DKHADOOP安装步骤请参考此前分享的文章）

自动化安装的过程如下：

1. 安装环境准备，下载DKM 以及DKH 的安装文件，安装JDK，yum 等基本软件。

2. 挑选一台节点，安装DKM ，用户只需要启动安装脚本即可，通常情况下几分钟就能够完成。

3. DKM 是一个web 应用，提供了基于浏览器的界面，用户可以通过浏览器可视化的进行DKH的安装部署。

4. 通过DKM 界面，添加其他需要的安装的节点，选择要安装的Hadoop 组件，以及每个节点承担的角色，选择安装，DKM 会自动地将需要安装的软件分发到对应的节点，并完成安装。

5. 当所有节点的软件都安装完成之后，DKM 会启动所有的服务。从上述的安装过程可以看出DKH 的安装主要体现两个特点，批量化以及自动化。只需要在其中一个节点完成，其他节点都可以进行批量化的自动安装。

2、集群配置

（1）可视化参数配置界面

Hadoop 包含许多的组件，不同的组件都包含各种各样的配置，并且分布于不同的主机之上。 DKM 针对这种情况提供了界面化的参数配置功能，并且能够自动的部署到每个节点。

（2）高可靠配置

DKM 对关键的组件使用HA部署方案，避免单点失效的发生，同时DKH 对于组件的异常错误提供了自动恢复处理，最大限度的保证服务的可靠性。

（3）HDFS 高可靠

在标准配置中，NameNode 是HDFS群集中的单点故障（SPOF）。每个群集都具有一个NameNode ，如果机器或进程变为不可用，群集整体将变为不可用，直到NameNode 在新主机上重新启动或上线。Secondary NameNode 不提供故障转移功能。为了让“备用” NameNode 的状态与“活动”NameNode 在此实施中保持同步，两个节点均与一组名为JournalNode 的独立后台程序进行通信。由“活动”NameNode 执行任何Namespace 修改时，它会持续记录其中大部分JournalNode 的修改记录。 “备用”NameNode 能够从JournalNode 读取编辑操作，并不断监视它们以了解编辑日志发生的更改。当备用节点发现编辑操作时，它会将这些编辑应用于自己的Namespace 。在发生故障转移时，备用节点将确保首先从JournalNode 读取所有的编辑操作，然后才会将自己升级为“活动状态”。这确保了再发生故障转移之前完全同步Namespace 状态。

为了提供快速故障转移，备用NameNode 还需要拥有有关群集中的块位置的最新信息。为实现这一目的，DataNode 配置了这两个NameNode的位置，它们会将这块位置信息和检测信号发送给这两个NameNode。

一次只能有其中一个NameNode 处于活动状态，这一点对于HA群集的正常运行来说至关重要。否则，Namespace 状态会在两者之间快速出现分歧，从而导致数据丢失风险或其他不正确的结果。为了确保此属性并防止所谓的“大脑分裂状况”，JournalNode 一次只允许一个NameNode 成为写入程序。在故障转移过程中，要进入“活动”状态的NameNode 将接管JournalNode的写入角色，这会有效地阻止其它NameNode继续保持“活动”状态，使得新的“活动”NameNode可以安全地继续执行故障转移。

DKH 默认开启了HA . 用户不用担心此问题。

（4）YARN 高可靠

YARN ResourceManager(RM) 负责跟踪群集中的资源并安排应用程序（例如，MapReduce作业）。RM 高可用性（HA）功能以活动/待机 RM 对形式添加冗余，以删除此单点故障。此外，在从待机RM 到活动RM 进行故障转移时，应用程序可以从其上次检查点状态恢复；例如，在MapReduce 作业中完成的map 任务不在后续的尝试中重新运行。这样可以在不对运行中的应用程序产生任何重要性能影响的情况下，处理以下事件：

计划外事件，如计算机崩溃。

计划内维护事件，如在运行ResourceManager的计算机上进行的软件或硬件升级。

RM HA 要求Zookeeper 和HDFS 服务处于运行状态。RM HA 通过活动-待机RM 对的方式实施。启动时，每个RM 处于待机状态；启动过程，但未加载状态。转换到活动状态时，RM会从指定的状态存储加载内部状态，并启动所有内部服务。管理员（通过CLI）或通过集成的故障转移控制器（启用自动故障转移时）可促进转换为活动状态。

DKH 默认开启了Resource Manager HA 。用户不需要担心。

3、权限管理

对系统管理员，数据库管理员及其他管理员必须授予不同级别的管理权限。

深度解析大快DKadoop大数据运维管理平台功能

2、集群配置

3、权限管理

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

深度解析大快DKadoop大数据运维管理平台功能

2、集群配置

3、权限管理

热门文章

最新文章

相关课程

相关电子书

相关实验场景