Dell PowerEdge 2850 服务器 Raid5硬盘掉线解决一例

简介:
       今天有点儿时间,突然想起了刚来公司的时候,服务器的硬件就出现了一次故障,现在写下来给各位朋友们点儿经验分享

       记得那次是我这个岗位的人员离职走了之后,经理带我到机房熟悉一下环境,顺便把备份磁带更换一下(备份磁带还得手动换掉,我晕啊),由于进机房需要出入证件,我没有证件,就需要等内部的人员来接待,这时候也快到下班的时间了,经理说:小刘啊,你现在这等我吧,我进去先看一下,没事儿就不用进去了,下次再说吧,我说行吧。

   大约过了20分钟后经理从机房出来了,说小刘我看我们的数据库服务器前面板的LED的指示灯闪黄色警告,LED显示英文字母 “BP Driver 0 ” 同时有个硬盘的小指示灯也闪黄, 你回去查查这个原因是什么?
    坐在经理那陈旧的充满烟焦油味道的车厢中,我在思考这原因。没有头绪。回到家 Google 了一下,原来这个可能和硬盘有关系, 那个Driver 0  是不是硬盘在BIOS中的ID号? 出现问题了? 这台服务器用的是RAID5的阵列  坏了一块硬盘的话还是能继续服务的。(服务器的硬件是比较的老了 powerage 850的机器了)
    第二天早上早早的来到了办公室,打了Dell的售后技术支持,说明了情况,Dell的技术告诉我那是阵列里面的一块硬盘掉线了(果然是硬盘的问题),你把硬盘拔下来在插上就可以了,
这我就放心了,等经理来了和他说一下情况看看什么时候把这个问题处理一下。
    经理是个很小心谨慎的人,从来不愿意冒险去做事情,他了解了这个情况后说等等在处理吧,当前的业务量很大,那个库每天都在处理业务,找个时间在处理一下吧,(我晕倒)只好这样了,大约过了2周了,还是没出问题,我们在一次总结会中我提到了这个事情,经理说好吧,老这样拖下去也不是办法,决定在周六的早上去机房处理。
     周五通知了业务部门我们需要停机维护系统,一切准备做好。周六约好在机房见面。
     周六我准备一下相关的工具和资料早早的来到了机房,找到显示器,鼠标键盘等。(机房的技术不知道干嘛去了,要什么都得自己动手),接上显示器,键盘,鼠标,登录系统,看着那黄色的警告,心理默默地祈祷,不要出事儿:) 按照先前和精力商量好的流程,先备份数据库的数据,关闭数据库,执行热插拔硬盘。糟糕了,没有把密码带来,一身冷汗(这么粗心大意呢),打电话给经理吧。 

电话接通了:领导您啥时到机房啊,我忘记带密码了! 经理在电话那头嚷道: 什么都不带,来干吗啊! 我恨自己咋那么粗心呢?
等我过去吧! 好的! 挂断电话我等待着经理的到来
 一会儿领导来了,有训斥了我一顿,以后做事儿细心点儿啊,别那粗心大意的!我答应着。
按照先前的流程先登录系统将数据库全备,使用RMAN 物理备份一份,备份的时间比较长,等吧,经理外边出去抽烟去了,我在旁边等着备份完成,大约20分钟后备份完成了。
好了第二步,关闭数据库
第三步,吧友问题的那块硬盘从前面板拔出在插入进去(服务器硬盘支持热插拔的)。这时候前面板的LED指示屏的闪烁变成了正常的蓝色,错误提示消失。
这时候已经是没有问题了,为了进一步确认没有后顾之忧,我们还是将系统重启了一下,启动之后一切正常
第四步,将数据实例启动,没有错误,登录网站测试没有问题,这次就这么解决了这个问题。

这次遇到的硬盘掉线问题,据我的经验应该是服务器的长期运行,机箱共振引起了硬盘接口的松动,或者机房的温度差别变化引起硬件热胀冷缩引起的。当然也不排除人为的原因。

解决了这次故障,我总结了一下:
任何故障出现之前根据其现象找原因,再就是咨询相关硬件厂商的售后工程师,他们接到的故障报修是最多的,会很快给你一个方向,指出问题大概的原因。
还有就是个人问题了,不能粗心大意,去机房维护,要把可能发生的事情都想到了。

 

     本文转自andylhz 51CTO博客,原文链接:http://blog.51cto.com/andylhz2009/407239,如需转载请自行联系原作者


相关文章
|
17天前
|
运维 数据挖掘 Windows
服务器数据恢复—服务器硬盘指示灯亮黄灯的数据恢复案例
服务器硬盘指示灯闪烁黄灯是一种警示,意味着服务器硬盘出现故障即将下线。发现这种情况建议及时更换硬盘。 一旦服务器上有大量数据频繁读写,硬盘指示灯会快速闪烁。服务器上某个硬盘的指示灯只有黄灯亮着,而其他颜色的灯没有亮的话,通常表示这块硬盘出现故障,这时候更换新硬盘同步数据即可。 如果没有及时发现硬盘损坏或者更换硬盘失败导致服务器崩溃,应该如何恢复数据呢?下面通过一个真实案例讲解一下服务器硬盘指示灯亮黄色的数据恢复案例。
|
1月前
|
安全 数据挖掘
服务器数据恢复—RAID5阵列中两块硬盘离线导致阵列崩溃的数据恢复案例
服务器数据恢复环境: 两组分别由4块SAS接口硬盘组建的raid5阵列,两组raid5阵列划分LUN并由LVM管理,格式化为EXT3文件系统。 服务器故障: RAID5阵列中一块硬盘未知原因离线,热备盘自动激活上线替换离线硬盘。在热备盘上线过程中,raid5阵列中又有一块硬盘离线。热备盘同步失败,该raid阵列崩溃,LVM结构变得不完整,文件系统无法正常使用。
|
1月前
|
存储 运维 数据挖掘
服务器数据恢复—EVA存储中多块硬盘离线导致存储崩溃的数据恢复案例
一台HP EVA存储中有23块硬盘,挂接到一台windows server操作系统的服务器。 EVA存储上有三个硬盘指示灯亮黄灯,此刻存储还能正常使用。管理员在更换硬盘的过程中,又出现一块硬盘对应的指示灯亮黄灯,存储崩溃,无法使用了。
|
2月前
|
存储 运维 算法
服务器数据恢复—raid6阵列硬盘重组raid5阵列如何恢复raid6阵列数据?
服务器存储数据恢复环境: 存储中有一组由12块硬盘组建的RAID6阵列,上层linux操作系统+EXT3文件系统,该存储划分3个LUN。 服务器存储故障&分析: 存储中RAID6阵列不可用。为了抢救数据,运维人员使用原始RAID中的部分硬盘重新组建RAID并进行了初始化。 初始化开始一段时间后,运维人员察觉到情况有异后强制终止初始化,这个时候初始化已经完成一半以上。数据部分已被不可逆的破坏。
|
10天前
|
弹性计算 数据挖掘 应用服务中间件
阿里云轻量应用服务器68元与云服务器99元和199元区别及选择参考
目前阿里云有三款特惠云服务器,第一款轻量云服务器2核2G68元一年,第二款经济型云服务器2核2G3M带宽99元1年,第三款通用算力型2核4G5M带宽199元一年。有的新手用户并不是很清楚他们之间的区别,因此不知道如何选择。本文来介绍一下它们之间的区别以及选择参考。
236 87
|
3天前
|
存储 弹性计算 应用服务中间件
阿里云轻量应用服务器出新品通用型实例了,全球26个地域可选
近日,阿里云再度发力,推出了首款全新升级的轻量应用服务器——通用型实例。这款服务器实例不仅标配了200Mbps峰值公网带宽,更在计算、存储、网络等基础资源上进行了全面优化,旨在为中小企业和开发者提供更加轻量、易用、普惠的云计算服务,满足其对于通用计算小算力的迫切需求。目前,这款新品已在全球26个地域正式上线,为全球用户提供了更加便捷、高效的上云选择。
|
20天前
|
机器学习/深度学习 人工智能 PyTorch
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
|
19天前
|
存储 运维 安全
阿里云弹性裸金属服务器是什么?产品规格及适用场景介绍
阿里云服务器ECS包括众多产品,其中弹性裸金属服务器(ECS Bare Metal Server)是一种可弹性伸缩的高性能计算服务,计算性能与传统物理机无差别,具有安全物理隔离的特点。分钟级的交付周期将提供给您实时的业务响应能力,助力您的核心业务飞速成长。本文为大家详细介绍弹性裸金属服务器的特点、优势以及与云服务器的对比等内容。
|
11天前
|
存储 人工智能 网络协议
浅聊阿里云倚天云服务器:c8y、g8y、r8y实例性能详解与活动价格参考
选择一款高性能、高性价比的云服务器对于企业而言至关重要,阿里云推出的倚天云服务器——c8y、g8y、r8y三款实例,它们基于ARM架构,采用阿里自研的倚天710处理器,并基于新一代CIPU架构,通过芯片快速路径加速手段,实现了计算、存储、网络性能的大幅提升。2025年,计算型c8y云服务器活动价格860.65元一年起,通用型g8y云服务器活动价格1187.40元一年起,内存型r8y云服务器活动价格1454.32元一年起。本文将为大家详细解析这三款实例的性能特点、应用场景以及最新的活动价格情况,帮助大家更好地了解阿里云倚天云服务器。
|
27天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式

热门文章

最新文章