虚拟化数据恢复环境:
某企业信息管理平台, 几台VMware ESX Server主机共享一台存储设备,大约有几十台虚拟机。
虚拟化故障&原因:
Vcenter报告虚拟磁盘丢失。管理员通过ssh远程到ESX中执行fdisk -l命令查看磁盘,发现STORAGE已经没有分区表了。重启所有设备后,ESX SERVER均无法连接到存储设备中的STORAGE。
经过和管理员沟通得知,工作人员曾经在这个存储网络中接入一台windows server服务器,具体情况不详。可能是那台windows server服务器对STORAGE的独享操作导致vmfs卷损坏。
经过分析发现分区表清零,55aa有效结束标志和硬盘ID标志都存在。发现一个NTFS卷,没有数据写进去,像一个刚格式化的卷。分析这个NTFS卷的BITMAP,发现该卷的前部和另外2个位置的部分空间被占用,但总占用空间不超过100M。
分析VMFS卷,发现在原磁盘中有2个VMFS分区,第2个是第1个的extend。因NTFS分区并未写数据到第2个VMFS分区,所以重点在于第1个VMFS分区。分析第1个VMFS分区,发现卷头结构丢失,一级索引、二级索引均存在,NTFS覆盖的数据区正好是某组虚拟机的临时内存镜像,对数据恢复没有什么影响。
虚拟化数据恢复过程:
1、对STORAGE做完整镜像备份。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始数据造成二次破坏。
2、连接两个VMFS分区,按照VMFS分区的组织方式,使用北亚企安自主开发的程序提取所有VMDK及配置文件。
3、通过nfs将恢复出来的数据迁移到ESX SERVER主机中。经过用户方验证,确认恢复出来的数据完整有效。
总结:
本案例中出现的故障是由于光纤环境互斥不当所导致的。应该是这个卷在WINDOWS SERVER系统做了重新分区,并格式化为NTFS,之后又对分区做了删除操作。ESX VMFS的互斥不依赖于硬件,只依赖于操作系统驱动层,所以将服务器接入到存储网络时一定要谨慎,需要考虑好存储的分配权限。