服务器数据恢复环境:
某品牌2850服务器中有一组由6块SCSI硬盘组建的raid5磁盘阵列,linux操作系统+ext3文件系统。
服务器故障:
服务器运行过程中突然瘫痪。服务器管理员检查阵列后发现raid5阵列中有两块硬盘离线,将其中一块硬盘进行强制上线操作,但是服务器操作系统启动异常。这时,管理员意识到问题的严重性,马上将服务器关机,联系到我们数据恢复中心寻求帮助。
raid5阵列两块硬盘离线的故障情况十分常见,由于raid5磁盘阵列支持一块硬盘离线时的冗余保护,如果出现多块硬盘离线的情况,服务器便处于瘫痪状态,且离线硬盘不会自动上线。由于目前市面上主流品牌的raid控制器的磁盘监控策略比较严格,阵列中硬盘掉线很多是由电源波动、控制器bug等随机原因所导致,所以掉线盘很有可能没有比较严重的物理故障。但是硬盘掉线后的强制上线操作风险性是很大的,一旦上线出错就会导致控制器对数据造成一些不可逆的损坏。进入操作系统后因为文件系统不一致进行自动修复,导致服务器中所有硬盘数据不一致,数据恢复难度很大。
服务器数据恢复过程:
1、将故障服务器中所有磁盘编号后取出,以只读方式进行扇区级全盘镜像,镜像过程中发现多块硬盘存在坏道但没有下线,应该是raid还没有识别到这些硬盘上的坏道。镜像完成后将所有磁盘按照编号还原到原服务器中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
2、基于镜像文件分析故障服务器中的raid结构信息,利用获取到的raid结构信息虚拟重构raid并验证raid结构的正确性。北亚企安数据恢复工程师人工修正被破坏结构,将修正后的数据导出到一台存储上临时存放。
3、使用完好的硬盘在服务器上搭建新的raid5磁盘阵列,将恢复出的数据迁移到新搭建的raid中。经过检验,恢复出来的数据一切正常,本次数据恢复工作结束。
Tips:
一旦出现raid5磁盘阵列中多块硬盘离线导致服务器瘫痪的情况,切记不要盲目进行强制上线操作。首先要做的就是将源硬盘全部镜像,可以在WINDOWS环境下执行如下操作:
1、可用相同或大于源盘容量的硬盘作为目标盘,将源盘全部扇区方式CLONE到目标盘。将所有盘做同样操作。
2、可将每块源盘完全以扇区方式输出文件到某大容量存储空间(如大容量硬盘、NAS、SAN、DAS等)。