服务器数据恢复—raid5磁盘掉线热备盘未激活导致崩溃的数据恢复案例

简介: 服务器数据恢复环境:某品牌X系列服务器,4块SAS硬盘组建了一组RAID5阵列,还有1块磁盘作为热备盘使用。服务器上层安装的linux操作系统,操作系统上部署了一个基于oracle数据库的OA(oracle已经不再为该OA系统提供后续服务支持)。服务器故障:raid5中一块磁盘离线,热备盘未自动激活rebuild(原因不明)。服务器在运行一段时间后,另一块磁盘离线,RAID5阵列崩溃。用户方要求尽可能恢复服务器操作系统和服务器中的数据。

服务器数据恢复环境:
某品牌X系列服务器,4块SAS硬盘组建了一组RAID5阵列,还有1块磁盘作为热备盘使用。服务器上层安装的linux操作系统,操作系统上部署了一个基于oracle数据库的OA(oracle已经不再为该OA系统提供后续服务支持)。

服务器故障:
raid5中一块磁盘离线,热备盘未自动激活rebuild(原因不明)。服务器在运行一段时间后,另一块磁盘离线,RAID5阵列崩溃。用户方要求尽可能恢复服务器操作系统和服务器中的数据。
将故障服务器中所有磁盘编号后取出,硬件工程师检测后没有发现有磁盘(包括离线的2块磁盘和热备盘)存在明显的物理故障。热备盘完全没有启用,无明显同步表现。

服务器数据恢复方案:
1、将所有磁盘以只读方式进行扇区级的全盘镜像,镜像完成后将所有磁盘按照编号还原到原服务器中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
2、基于镜像文件分析RAID5结构,获取到RAID5条带规则、条带大小、校验方向、META区域等raid结构相关信息。
3、根据获取到的RAID结构信息虚拟重构RAID5。
4、解释虚拟磁盘及文件系统。
5、检测重构的raid5结构是否正确,如不正确,重复2-4过程。
6、检测raid5结构没有问题以及数据无误后,按用户要求回迁数据。

服务器数据恢复过程:
1、在对故障服务器中磁盘做镜像时,发现后离线的那块磁盘有十几个坏扇区,其余磁盘没有发现有坏道。
2、基于镜像文件分析获取raid5结构相关信息。
01.jpg

3、根据获取到的raid结构信息虚拟重组raid5,重组完成后验证数据,发现200M以上的压缩包解压没有报错,由此可以确定分析出来的raid5结构正确。
4、按照该raid5结构生成虚拟RAID到一块单硬盘上,打开文件系统没有出现报错。
5、确定备份包没有问题和经过用户方的同意后,用新硬盘更换存在坏扇区的那块磁盘,然后对原盘重建RAID。
6、将恢复好的单盘用USB方式接入故障服务器,用linux SystemRescueCd启动故障服务器,然后使用dd命令进行全盘回写。
7、dd所有数据后,启动操作系统,无法进入操作系统桌面并出现报错,报错信息为:“/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied”,北亚企安数据恢复工程师初步判断此文件权限有问题。用SystemRescueCd重启后检查,发现此文件时间、权限、大小均有明显错误,很显然节点损坏。
8、重新分析重组数据中的根分区,定位出错的/sbin/pidof/,发现出错是由磁盘坏道导致的。
9、北亚企安数据恢复工程师使用3块完好的磁盘对后离线、存在坏道的那块磁盘的损坏区域进行xor补齐。补齐后重新校验文件系统依然有错误。再次检查inode表,发现后离线、存在坏道的磁盘的损坏区域有部分节点表现为(55 55 55部分):
02.jpg

很明显,虽然节点中描述的uid正常存在,但属性、大小、最初的分配块全部是错误的。北亚企安数据恢复工程师按照所有可能性进行分析,确定无法找回此损坏节点。只能修复此节点或者复制一个相同的文件过来。
10、针对所有可能有错的文件,通过日志确定原节点块的节点信息,再做修正。
11、修正后重新dd根分区,执行fsck -fn /dev/sda5/进行检测,依然报错。
03.jpg

12、根据报错提示,在系统中发现有多个节点共用同样的数据块。按照提示分析底层,发现存在节点信息的新旧交集。
13、按节点所属的文件进行区别,清除错误节点后,再次执行fsck -fn /dev/sda5进行检测,依然有极少量的报错信息。根据报错提示,发现这些节点多位于doc目录下,不影响系统启动。直接执行fsck -fy /dev/sda5/强行修复。
14、修复完成后重启系统,成功进入操作系统桌面。
15、启动oracle数据库服务,启动应用软件,一切正常,无报错。
16、用户方对操作系统,oracle数据库以及OA数据进行检测,经过多部门的反复检测,确认恢复数据完整可用。本次数据恢复工作完成。

相关文章
|
2月前
|
存储 运维 数据挖掘
服务器数据恢复—EqualLogic存储硬盘出现坏道的数据恢复案例
某品牌EqualLogic PS6100存储阵列上有一组由16块硬盘组建的raid5磁盘阵列。磁盘阵列上层划分多个大小不同的卷,存放虚拟机文件。 硬盘出现故障导致存储阵列不可用,需要恢复存储阵列中的数据。
|
2月前
|
存储 运维 Oracle
服务器数据恢复—存储硬盘指示灯亮黄灯,RAID5阵列崩溃的数据恢复案例
服务器存储数据恢复环境: 某单位一台某品牌DS5300存储,1个机头+4个扩展柜,50块的硬盘组建了两组RAID5阵列。一组raid5阵列有27块硬盘,存放Oracle数据库文件。存储系统上层一共划分了11个卷。 服务器存储故障: 存储设备上两个硬盘指示灯亮黄色。其中一组RAID5阵列崩溃,存储不可用,设备已经过保。
|
2月前
|
存储 运维 数据挖掘
服务器数据恢复—Raid5阵列2块硬盘损坏,热备盘未激活的数据恢复
EMC存储上有一组由多块stat硬盘组建的raid5磁盘阵列,该raid5阵列中有两块热备盘。上层采用的是zfs文件系统。 raid5阵列中2块硬盘出现故障,只有一块热备盘激活。
|
3月前
|
Unix 应用服务中间件 索引
服务器数据恢复—LUN映射出错导致文件系统共享冲突的数据恢复案例
SUN光纤存储系统中有一组由6个硬盘组建的RAID6,划分为若干LUN,MAP到跑不同业务的服务器上,这些服务器上运行的是SOLARIS操作系统。 服务器不存在物理故障。由于公司业务变化,需要增加一台服务器跑新的应用。服务器管理员在原服务器在线的状态下,将其中一个lun映射到一台新服务器上。实际上,这个刚映射过去的卷已经map到了solaris生产系统上的某个lun上了。映射到新服务器后,服务器对这个卷进行初始化的操作,原solaris系统上的磁盘报错,重启服务器后这个卷已经无法挂载。 服务器管理员寻求sun原厂工程师的帮助。sun工程师检测后执行了fsck操作。执行完成后文件系统挂载成功。查
|
2月前
|
弹性计算 运维 安全
阿里云轻量应用服务器与云服务器ECS啥区别?新手帮助教程
阿里云轻量应用服务器适合个人开发者搭建博客、测试环境等低流量场景,操作简单、成本低;ECS适用于企业级高负载业务,功能强大、灵活可扩展。二者在性能、网络、镜像及运维管理上差异显著,用户应根据实际需求选择。
276 10
|
2月前
|
运维 安全 Ubuntu
阿里云渠道商:服务器操作系统怎么选?
阿里云提供丰富操作系统镜像,涵盖Windows与主流Linux发行版。选型需综合技术兼容性、运维成本、安全稳定等因素。推荐Alibaba Cloud Linux、Ubuntu等用于Web与容器场景,Windows Server支撑.NET应用。建议优先选用LTS版本并进行测试验证,通过标准化镜像管理提升部署效率与一致性。
|
2月前
|
弹性计算 ice
阿里云4核8g服务器多少钱一年?1个月和1小时价格,省钱购买方法分享
阿里云4核8G服务器价格因实例类型而异,经济型e实例约159元/月,计算型c9i约371元/月,按小时计费最低0.45元。实际购买享折扣,1年最高可省至1578元,附主流ECS实例及CPU型号参考。
422 8
|
2月前
|
存储 监控 安全
阿里云渠道商:云服务器价格有什么变动?
阿里云带宽与存储费用呈基础资源降价、增值服务差异化趋势。企业应结合业务特点,通过阶梯计价、智能分层、弹性带宽等策略优化成本,借助云监控与预算预警机制,实现高效、可控的云资源管理。
|
2月前
|
弹性计算 运维 安全
区别及选择指南:阿里云轻量应用服务器与ECS云服务器有什么区别?
阿里云轻量应用服务器适合个人开发者、学生搭建博客、测试环境,易用且性价比高;ECS功能更强大,适合企业级应用如大数据、高流量网站。根据需求选择:轻量入门首选,ECS专业之选。
270 2
|
2月前
|
弹性计算 ice
阿里云4核8G云服务器配置价格:热门ECS实例及CPU处理器型号说明
阿里云2025年4核8G服务器配置价格汇总,涵盖经济型e实例、计算型c9i等热门ECS实例,CPU含Intel Xeon及AMD EPYC系列,月费159元起,年付低至1578元,按小时计费0.45元起,实际购买享折扣优惠。
562 1

热门文章

最新文章

相关产品

  • 云服务器 ECS