一次Hbase删库的故障恢复--Linux EXT4 文件恢复原理分析

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 一次Hbase删库的故障恢复中,采用了特征码扫描的方式,这里描述了决定技术方案的Linux EXT4 文件恢复原理。

作者

赵成

日期

2018-05-02

标签

文件恢复, Hbase, Ext4, ext4magic, extundelete , 删库


前言

误删库(删文件) 是生产运维中最严重的故障。Hadoop大数据环境下,数据的备份与恢复都面临比传统数据库更加严峻的挑战。

作者参加的一次Hbase删库故障恢复中,由于所用Hbase版本旧,未支持snapshot的备份机制,未做任何备份。在删库误操作发出5分钟后,操作人员取消了命令,并停止了外部业务对Hbase的访问。根据日志,删除命令已发送到datanode节点,hadoop文件目录下,只有一个数据文件(128M),故障前有效数据在几个T。由于发生故障后,很快停止了对故障机器的访问,操作系统应该只是标记了文件的删除,实际数据应该在操作系统内核层面可见。

由于删除操作涉及了大量的文件,导致Ext4中的Journal日志被覆盖,无法恢复出所有的文件元信息。因此恢复的技术路线是直接在ext4层面读取数据块,根据hbase格式直接解析内容(特征码扫描方式)。下面梳理与描述了Ext4 文件恢复的大致原理,供各位同学参考。debugfs与ext4magic具体的操作流程,等有空再整理。

Ext4中目录与文件的存储结构

在分区根目录下创建文本文件1.txt,写入文件内容abc。

2018-05-02-dir.png

简单说,ext4中文件和目录包含元数据和实际数据两个部分,实际数据存储了文件的实际内容,元数据存储了文件的创建修改删除时间以及实际数据的地址。文件和目录的元数据由一个inode结构表示。所有的inode存储在inode数组中,根据序号访问。

下图描述了目录与文件的逻辑关系图。分区根目录inode序号默认为2,2号inode中记录了目录数据块的位置8481。8481数据块中存储了该目录下文件的inode序号和文件名,1.txt的inode序号为12。12号inode指向的数据块为33025,33025中存储了2.txt实际内容abc。(add表示地址,块号)

2018-05-02-create-file-dir.png

下图描述了目录和文件存储的物理结构图。

2018-05-02-create-file-dir-block.png

删除文件后的目录与文件结构

执行 rm -f 1.txt

下图为删除1.txt后,目录与文件的逻辑和物理结构。/目录的内容中标记了1.txt已经删除,ls操作不会显示已经被标记为删除的文件。12号innode中的地址信息被清除。因此文件删除后,虽然可以找到删除文件的名字,但是无法确定其数据块位置,从而无法恢复数据。

2018-05-02-del-file-dir.png

2018-05-02-del-file-dir-block.png

journal日志

ext3和ext4文件系统,使用日志机制实现了写文件的原子性和故障恢复。

在根目录中创建文件1.txt,写入内容,删除该文件,三个操作分别对应三个事务。每个事务中会记录操作涉及的元数据所在的数据块(数据块为操作后的新值,而不是操作前的值,为REDO日志而不是UNDO日志)。

下图为三个操作的事务日志简化描述(实际情况下删除一个文件占用6个左右的数据块),与之前的数据块描述对应。每个框均表示为一个单独的4K Block。除事务的开始和结束块,其他均为操作修改的数据块的REDO值。

2018-05-02-journal.png

根据journal恢复

文件1.txt删除后,其数据所在8481磁盘块的内容还在,但是inode表到该磁盘块的链接被清除,无法用于恢复操作。

journal日志文件中,有T1,T2,T3三个事务日志,T3和T1日志中的第12号inode不包含add信息,T2事务中的第12号inode包含add信息,可用于恢复数据。

因此删除操作本身的journal日志不能用于恢复,journal中必须有删除操作之前的inode信息才能进行恢复。

journal日志文件大小固定,在128M大小情况下,有32768个文件块,在日志写满后,会重复循环使用文件。如果在journal日志中,无法找到有效的文件inode信息,则该文件无法恢复。

ext4magic恢复机制

ext4magic恢复包括4个步骤,其中前3步根据journal文件日志中的有效inode信息进行数据恢复,当不能完成恢复时,第4步进行全盘扫描,根据文件的具体格式(特征码)进行恢复,支持包括以下类型文件。不能支持记录跨块的情况。

2018-05-02-ext4magic.png

该方式,与直接扫描磁盘进行hbase记录解析原理相同。

参考


版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
18天前
|
运维 安全 Linux
Linux中传输文件文件夹的10个scp命令
【10月更文挑战第18天】本文详细介绍了10种利用scp命令在Linux系统中进行文件传输的方法,涵盖基础文件传输、使用密钥认证、复制整个目录、从远程主机复制文件、同时传输多个文件和目录、保持文件权限、跨多台远程主机传输、指定端口及显示传输进度等场景,旨在帮助用户在不同情况下高效安全地完成文件传输任务。
126 5
|
18天前
|
Linux Shell 数据库
Linux文件查找新姿势:总有一种你没见过
【10月更文挑战第18天】文件查找是Linux用户提升工作效率的重要技能。本文介绍了几种实用的文件查找方法,包括基础的`find`命令、快速的`locate`和`mlocate`、高效的`fd`工具、以及结合`grep`和`rg`进行内容搜索。此外,还提供了编写Shell脚本和使用图形界面工具的建议,帮助你更灵活地管理文件。
56 3
|
6天前
|
网络协议 Linux
linux系统重要文件目录
本文介绍了Linux系统中的重要目录及其历史背景,包括根目录、/usr、/etc、/var/log和/proc等目录的结构和功能。其中,/etc目录下包含了许多关键配置文件,如网卡配置、DNS解析、主机名设置等。文章还详细解释了各目录和文件的作用,帮助读者更好地理解和管理Linux系统。
24 2
|
5天前
|
缓存 监控 Linux
|
29天前
|
Linux 开发工具 数据安全/隐私保护
linux异常一:feng 不在 sudoers 文件中,此事将被报告。yum提示Another app is currently holding the yum lock; waiting for
这篇文章介绍了在CentOS 7系统中安装Docker时遇到的两个常见问题及其解决方法:用户不在sudoers文件中导致权限不足,以及yum被锁定的问题。
37 2
linux异常一:feng 不在 sudoers 文件中,此事将被报告。yum提示Another app is currently holding the yum lock; waiting for
|
9天前
|
Linux Shell 数据库
文件查找是Linux用户日常工作的重要技能介绍了几种不常见的文件查找方法
文件查找是Linux用户日常工作的重要技能。本文介绍了几种不常见的文件查找方法,包括使用`find`和`column`组合、`locate`和`mlocate`快速查找、编写Shell脚本、使用现代工具`fd`、结合`grep`搜索文件内容,以及图形界面工具如`Gnome Search Tool`和`Albert`。这些方法能显著提升文件查找的效率和准确性。
29 2
|
12天前
|
Linux 数据库
linux 全局搜索文件
在 Linux 系统中,全局搜索文件常用 `find`、`locate` 和 `grep` 命令。`find` 根据文件名、类型、大小、时间戳等条件搜索;`locate` 通过预构建的数据库快速查找文件;`grep` 在文件中搜索特定文本,常与 `find` 结合使用。选择合适的命令取决于具体需求。
|
16天前
|
Linux 开发工具 Perl
Linux命令替换目录下所有文件里有"\n"的字符为""如何操作?
【10月更文挑战第20天】Linux命令替换目录下所有文件里有"\n"的字符为""如何操作?
30 4
|
15天前
|
运维 安全 Linux
Linux文件清空的五种方法总结分享
每种方法各有优势,选择最合适的一种或几种,可以极大提高您的工作效率。更多有关Linux系统管理的技巧与资源,欢迎访问,持续提升您的运维技能。
60 1
|
23天前
|
Linux API 开发工具
FFmpeg开发笔记(五十九)Linux编译ijkplayer的Android平台so库
ijkplayer是由B站研发的移动端播放器,基于FFmpeg 3.4,支持Android和iOS。其源码托管于GitHub,截至2024年9月15日,获得了3.24万星标和0.81万分支,尽管已停止更新6年。本文档介绍了如何在Linux环境下编译ijkplayer的so库,以便在较新的开发环境中使用。首先需安装编译工具并调整/tmp分区大小,接着下载并安装Android SDK和NDK,最后下载ijkplayer源码并编译。详细步骤包括环境准备、工具安装及库编译等。更多FFmpeg开发知识可参考相关书籍。
73 0
FFmpeg开发笔记(五十九)Linux编译ijkplayer的Android平台so库
下一篇
无影云桌面