NN 故障处理_案例| 学习笔记

简介: 快速学习 NN 故障处理_案例

开发者学堂课程【Hadoop 分布式文件系统 HDFSNN故障处理_案例】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/93/detail/1459


NN故障处理_案例


内容介绍

一、NN 故障处理_案例


一、NN故障处理_案例

NameNode 故障后,可以采用如下两种方法恢复数据。

方法一:

SecondaryNameNode 中数据拷贝到 NameNode 存储数据的目录

1. kill -9 NameNode 进程.

2.删除 NameNode 存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name).

[atguigu@hadoop102 hadoop-2.7.2]$ rm-rf /opt/module/hadoop-

2.7.2/data/tmp/dfs/name/*

3.拷贝SecondaryNameNode中数据到原 NameNode 存储数据目录。

[atquiqu@hadoop102       dfs]  $    scp     -r

atguigu@hadoop104:/opt/module/hadoop-

2.7.2/data/tmp/dfs/namesecondary/./name/.

4.重新启动NameNode.

[atguigu@hadoop102 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode.

方法二:

使用-importCheckpoint 选项启动 NameNode 守护进程,从而将SecondaryNameNode 中数据拷贝到 NameNode 目录中。

1.修改hdfs-site.xml中的。

dfs.namenode.checkpoint.period.

120

.dfs.namenode.name.dir

/opt/module/hadoop-2.7.2/data/tmp/dfs/name.

2. kill -9 NameNode 进程

3.删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)

[atguigu@hadoop102 hadoop-2.7.2]$ rm-rf/opt/module/hadoop-

2.7.2/data/tmp/dfs/name/

4.如果 SecondaryNameNode 不和 NameNode在一个主机节点上,需要将SecondaryNameNode 存储数据的目录拷贝到 NameNode 存储数据的平级目录,并删除in_use.lock文件。

[atguigu@hadoop102        dfs]$           Scp      -r

atquigu@hadoop104:/opt/module/hadoop-

2.7.2/data/tmp/dfs/namesecondary ./.

[atguigu@hadoop102 namesecondary]$ rm -rf in use.lock.

[atquigu@hadoop102 dfs]$ pwd.

/opt/module/hadoop-2.7.2/data/tmp/dfs.

[atguigu@hadoop102 dfs]$ 1s

data name namesecondary.

5.导入检查点数据(等待一会ctrl+c 结束掉)

[atguigu@hadoop102 hadoop-2.7.2]$ bin/hdfs namenode

importCheckpoint.

6.启动 NameNode

[atguigu@hadoop102 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start

namenode.

相关文章
|
4月前
|
机器学习/深度学习 算法 PyTorch
【PyTorch实战演练】自调整学习率实例应用(附代码)
【PyTorch实战演练】自调整学习率实例应用(附代码)
207 0
|
4月前
|
算法 Python
LightGBM高级教程:自动调参与超参数优化
LightGBM高级教程:自动调参与超参数优化【2月更文挑战第5天】
356 2
|
4月前
|
机器学习/深度学习 搜索推荐 算法
推荐系统离线评估方法和评估指标,以及在推荐服务器内部实现A/B测试和解决A/B测试资源紧张的方法。还介绍了如何在TensorFlow中进行模型离线评估实践。
推荐系统离线评估方法和评估指标,以及在推荐服务器内部实现A/B测试和解决A/B测试资源紧张的方法。还介绍了如何在TensorFlow中进行模型离线评估实践。
374 0
|
机器学习/深度学习 编解码 算法
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
作为系列文章的第一篇解读,本文主要是从整体框架构建角度来解析,不会涉及到具体算法和代码,希望通过本文讲解: - MMDetection 整体构建流程和思想 - 目标检测算法核心组件划分 - 目标检测核心组件功能
887 0
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
|
4月前
|
机器学习/深度学习 分布式计算 算法
机器学习PAI常见问题之跑predict时报错如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
4月前
|
Serverless Python
python实现布林线策略案例
此Python代码示例展示了如何运用布林线策略进行股票交易模拟。首先,它下载AAPL股票的历史数据,计算每日收益率,并计算布林线(中位数、上轨和下轨)。接着,定义了一个交易策略,当股价超过布林线上轨时买入,低于下轨时卖出。通过循环模拟交易日并更新资产,最后计算总收益。请注意,实际交易应考虑更多因素如交易费用和风险管理。
47 1
|
PyTorch 算法框架/工具
Pytorch疑难小实验:理解torch.cat()在不同维度下的连接方式
Pytorch疑难小实验:理解torch.cat()在不同维度下的连接方式
235 0
|
机器学习/深度学习 存储 监控
如何在 20 天内损坏一个模型? 一个生产环境模型分析教程(Evidently)(上)
假设您训练了一个预测模型,并将其发布到生产环境。 现在,您依靠它来做出业务决策。您必须维护、重新训练并密切关注您的模型。 它会出现什么问题,以及如何跟踪? 让我们来看一个例子。这是一个关于我们如何训练模型、模拟生产环境使用并分析其逐渐退化的故事。
|
机器学习/深度学习 监控 算法
如何在 20 天内损坏一个模型? 一个生产环境模型分析教程(Evidently)(下)
假设您训练了一个预测模型,并将其发布到生产环境。 现在,您依靠它来做出业务决策。您必须维护、重新训练并密切关注您的模型。 它会出现什么问题,以及如何跟踪? 让我们来看一个例子。这是一个关于我们如何训练模型、模拟生产环境使用并分析其逐渐退化的故事。
|
数据采集 算法 数据可视化
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(二)
。本文核心内容是按照抽象到具体方式,从多个层次进行训练和测试流程深入解析。从最抽象层讲起,到最后核心代码实现,希望帮助大家更容易理解 MMDetection 开源框架整体构建细节。
1002 0
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(二)