一例IBM服务器Raid磁盘阵列故障

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zergskj/article/details/6303433 通常我们在服务器上做了硬件层面的Raid之后,用户拔掉任意一块硬盘,系统仍然能够正常工作。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zergskj/article/details/6303433

通常我们在服务器上做了硬件层面的Raid之后,用户拔掉任意一块硬盘,系统仍然能够正常工作。

不巧的是,某些情况下,由于疏忽大意,往往会造成意外的发生,今天就遇到了客户同时拔掉了奇偶校验的两块硬盘,而且是CMS的生产服务器,包括Oracle数据库【OMG!】

在ssh的终端直接抛出了一个io error后,整个Centos系统就崩溃了,不接受任何指令,包括reboot,

倒是tomcat竟然还能工作,这里小赞许一下,但好像servlet也不行了。

到机房直接断电重启,系统已经无法启动。服务器反复加载硬件,到硬盘这一步时,始终过不去,提示error。

按系统提示输入C键,进入Raid阵列管理,发现已经有两块磁盘Offline,badluck!

尝试将磁盘设置为Online,发现没有相关选项。

……经过IBM工程师一番折腾之后,操作系统总算恢复正常。但Oracle好像有点不太对头:

启动Oracle出现如下错误提示:

ORA-01113: file 3 needs media recovery

ORA-01110: data file 3: '/oracle/app/oradata/orcl/sysaux01.dbf'

按照提示要求执行:

sql >recovery datafile 3;

提示修复成功

但重启数据库后,在startup.log中又抛出如下错误:

ORA-00607: Internal error occurred while making a change to a data block
ORA-00600: internal error code, arguments: [4194], [49], [24], [], [], [], [],

看样子,Oracle在尝试回滚最近的数据时,遇到了麻烦。

OK,稀里糊涂搜索一通后,得到了一个相近的答案:

重建UNDO

SQL> startup mount
ORACLE instance started.
Total System Global Area  599785472 bytes
Fixed Size                  1220772 bytes
Variable Size             125833052 bytes
Database Buffers          465567744 bytes
Redo Buffers                7163904 bytes
Database mounted.

SQL> create undo tablespace undotbs02 datafile '/home/u01/app/oracle/oradata/orcl/undotbs02.dbf' size 100m
  2  ;
create undo tablespace undotbs02 datafile '/home/u01/app/oracle/oradata/orcl/undotbs02.dbf' size 100m
*
ERROR at line 1:
ORA-01109: database not open
SQL> select name from v$datafile;
NAME
--------------------------------------------------------------------------------
/home/u01/app/oracle/oradata/orcl/system01.dbf
/home/u01/app/oracle/oradata/orcl/undotbs01.dbf
/home/u01/app/oracle/oradata/orcl/sysaux01.dbf
/home/u01/app/oracle/oradata/orcl/users01.dbf
SQL> alter database datafile '/home/u01/app/oracle/oradata/orcl/undotbs01.dbf' offline drop;
Database altered.
SQL> alter database open;
Database altered.
SQL> archive log list;
Database log mode              No Archive Mode
Automatic archival             Disabled
Archive destination            USE_DB_RECOVERY_FILE_DEST
Oldest online log sequence     1056
Current log sequence           1058
SQL> create undo tablespace undotbs2 datafile '/home/u01/app/oracle/oradata/orcl/undotbs02.dbf' size 100m;
Tablespace created.
SQL> ALTER SYSTEM SET undo_tablespace='UNDOTBS2' ;
System altered.

通过以上设置,再次重启数据库,ok,一切恢复正常!

由此得出一个重要教训:服务器上的东西不要随便插入拔出smile02.gif

[此文在实际操作过程中发现日志中仍然存在警告,有异常,5个小时后,Oracle再次停掉]

【建议重新安装Oracle,Oracle修复过于复杂,除非有重要数据,不建议继续修复】

相关文章
|
1天前
|
运维 数据挖掘 开发工具
服务器数据恢复—硬盘离线导致raid5阵列热备盘上线失败的数据恢复案例
服务器磁盘阵列数据恢复环境: 服务器中有两组分别由4块SAS硬盘组建的raid5磁盘阵列,两组raid5阵列划分LUN,组成LVM结构,格式化为EXT3文件系统。 服务器磁盘阵列故障: 服务器中一组raid5阵列中有一块硬盘离线,热备盘自动上线替换离线硬盘。热备盘上线同步数据过程中又有一块硬盘离线,热备盘同步失败,该组raid5阵列崩溃,LVM结构变得不完整,文件系统无法使用。 硬件工程师对两块离线硬盘进行硬件故障检测,发现先离线硬盘无法识别,初步判断该硬盘存在硬件故障,需要进行开盘修复。后离线硬盘可以正常识别。
服务器数据恢复—硬盘离线导致raid5阵列热备盘上线失败的数据恢复案例
|
11天前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
14天前
|
存储 安全 算法
服务器数据恢复—Raid磁盘阵列的安全性分析及常见故障
出于尽可能避免数据灾难的设计初衷,RAID解决了3个问题:容量问题、IO性能问题、存储安全(冗余)问题。从数据恢复的角度讨论RAID的存储安全问题。 常见的起到存储安全作用的RAID方案有RAID1、RAID5及其变形。基本设计思路是相似的:当部分数据异常时,可通过特定算法将数据还原出来。以RAID5为例:如果要记录两个数字,可以通过再多记录这两个数字的和来达到记录冗余性的目的。例如记录3和5,同时再记录这2个数字的和8。在不记得到底是几和5的情况下,只需要用8-5就可以算出这个丢失的数字了,其余情况依此类推。
|
18天前
|
存储 运维 小程序
服务器数据恢复—双循环RAID5阵列数据恢复案例
服务器存储数据恢复环境: 一台存储中有一组由7块硬盘组建的RAID5阵列,存储中还有另外3块盘是raid中掉线的硬盘(硬盘掉线了,管理员只是添加一块的新的硬盘做rebuild,并没有将掉线的硬盘拔掉)。整个RAID5阵列的存储空间划分了一个LUN。 服务器存储故障: 硬盘出现故障导致存储中阵列瘫痪。 和管理员沟通,据管理员说是磁盘阵列中某些硬盘出现故障导致存储不可用,初步判断RAID中有硬盘掉线了。
|
1月前
|
存储 虚拟化
【服务器数据恢复】戴尔DELL EMC SC系列存储服务器故障StorageCenter停机错误数据恢复案例
客户报告其戴尔DELL SCv/EMC SC E10J (4020) 存储服务器故障,登录后提示Storage Center停机且数据不可访问。此故障可能源于系统问题或硬盘故障。解决方案包括:若为系统问题,可联系戴尔售后重装系统以恢复数据访问;若涉及硬盘损坏,则需物理镜像硬盘或将所有硬盘取出并手动解析虚拟化信息以重组阵列结构。此类故障常见于保修期后的服务器,需定期维护预防。
28 1
|
1月前
|
存储 内存技术
【RAID磁盘阵列服务器数据恢复】华为OceanStor Dorado存储系统RAID-TP数据丢失数据恢复案例
客户报告其华为OceanStor Dorado存储系统的RAID-TP出现故障,导致数据丢失。RAID-TP是一种增强型RAID级别,包含数据磁盘、校验磁盘和转换磁盘,可在两个磁盘故障时仍保护数据。通过分析RAID结构与工作原理,我们制定了恢复方案:首先从校验磁盘读取信息并计算出丢失的数据块,接着将恢复的数据写入新磁盘。由于缺乏现成工具,需定制RAID重组程序以恢复数据。华为的动态RAID重构技术保证了重构过程中冗余级别的稳定。
32 1
|
23天前
|
SQL 数据库 数据安全/隐私保护
服务器数据恢复—raid5阵列故障因操作不当导致数据无法恢复的案例
服务器数据恢复环境: 一台服务器中有一组由4块SCSI硬盘组建的raid5磁盘阵列,划分了一个逻辑卷,操作系统为WINDOWS SERVER,作为SQL SERVER服务器使用。 服务器故障: 运行过程中该服务器raid5磁盘阵列瘫痪,管理员检查服务器发现raid5阵列中已经有3块磁盘离线。管理员选择其中2块离线硬盘进行强制上线操作,强制上线后操作系统无法启动。使用WINPE光盘启动操作系统后,可以看到数据。
|
开发工具
IBM Watson提供的认知计算服务介绍
IBM Watson提供的认知计算服务介绍
|
传感器 人工智能 自然语言处理
IBM Watson 持续扩张,认知计算正悄然改变我们的生活
在去年 IBM 发布的一则很有创意的广告中,Watson 用 IBM 最新的认知计算机咨询单元与 Bob Dylan 聊了半分钟。Watson 说它每秒能读 8 亿页,并识别出 Dylan 作品中常用的主题,比如时间流逝和爱情消逝。
363 0
|
物联网 区块链 网络架构
带你读《基于区块链的物联网项目开发》之一:了解物联网并在IBM Watson物联网平台上开发
本书首先概述当前业务场景中的物联网概念,帮助读者在IBM Watson物联网平台上开发自己的设备,并使用Watson和Intel Edison创建物联网解决方案。之后介绍如何利用Hyperledger框架开发区块链网络,以及如何创建自己的集成区块链和物联网解决方案。接下来的章节讲述了如何在IBM Cloud平台利用物联网来实现端到端的区块链解决方案。最后,你将掌握如何将物联网和区块链技术融合,利用实践和驱动程序来开发实用集成解决方案。