IDC服务器故障排除思路

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 本文详细介绍了服务器维修流程,包括维修前的工具和备件准备,以及不拆机情况下的初步检查步骤。文中还提供了拆机维修的具体方法,如最小化测试法、替换法和交叉比较法,并针对CPU、主板、内存、硬盘、电源、风扇、网卡及BMC等主要配件的故障排除进行了说明,强调了注意事项,旨在帮助技术人员快速准确地定位并解决问题。

一、维修前准备

1、工具准备

笔记本电脑、拆机工具、DOS系统引导U盘、U盘Linux系统、万用表(主板或不开机故障)、防静电手环、网线、散热硅胶等。

2、备件准备

硬盘、内存、CPU、主板、电源模块等备件

二、常规检查

在不拆机、不断电的情况下检查故障服务器

1、检查开机状态下服务器指示灯是否正常

2、检查有无明显异味、有无明显异响

3、检查外观有无明显磕碰、变形等物理损伤

4、检查电源线、电源开关是否正常

5、登录BMC系统,查看设备状态和日志,定位故障服务器部件

6、在授权可以关机断电的情况下,重启服务器,查看BIOS信息和BMCSEL信息定位服务器故障部件

7、如确定为可热插拔的设备造成,可以直接不关机的情况下进行更换解决,比如更换硬盘

三、拆机维修

提前佩戴好防静电手环,手环必须接触皮肤,不可以带到衣服之外,另一端连接到能够接地的金属器物,比如机柜等。

1、最小化测试法

当无法定位到具体故障时,可以通过能开机的最小化配置并逐步添加部件来判断故障范围。

除了主板外,只保留单颗CPU、单根内存,一个PSU,用短接开关针脚方式开机,来进行判断。再依次替换部件进行排查。如果最小化可以正常开机,再逐步添加其他部件,通过重启服务器来判断是哪个部件故障。

2、替换法

当大概知道故障范围时,可以通过1-3个部件逐步替换来查找出具体故障,检查故障现象是否有变化,来确认具体故障点。

通过逐一替换服务器内的疑似故障部件,观察故障现象是否消失,以此定位故障部件。可以先替换比较容易出故障的部件,比如硬盘、内存等。

3、交叉比较法

通过同类型的部件(出现故障的零件和正常运行的零件)交叉安装测试,来排除故障部件。如果出现故障状况消失,则有可能是部件安装不到位。如果故障状况随报错部件转移,则可以判断此报错部件为故障,将其更换。如果故障状况没有随报错部件转移,则可以判断非此部件故障,需要继续进行交叉替换测试。

PS:以上方法,不一定单独使用,可以具体情况具体分析,可以灵活组合使用

四、主要配件故障排除思路

1、CPU故障

1.1、无法开机

1)查看服务器的BMC log日志,来定位故障CPU位置

2)拆机检查故障位置CPU和散热器是否存在接触问题

3)重新拆装CPU确认接触针脚是否弯曲不良

4)单CPU测试、交叉更换CPU测试,确认是否是单CPU故障

5)最小化测试,确认是否是其他部件故障

6)给主板的CMOS放电

1.2、死机或频繁自动重启

1)进BMC系统查看CPU温度以及各风扇状态是否正常

2)如果温度异常的话,拆机检查服务器挡风罩是否安装到位。检查CPU散热片固定螺丝是否松动,和散热器的接触是否异常,CPU硅脂是否涂抹。如温度正常,则交叉测试CPU,来确认是否是CPU自身故障。

1.3、报内存错误

只有多条内存的报错位置属于同一CPU控制的情况下,才有可能是CPU故障。

1)确认内存槽位,以此确认所涉及的CPU位置

2)CPU交叉测试

PS:CPU故障注意事项:

1)更换CPU的时候,注意卡座上的防呆标志(小三角标志或者缺口位置),对齐再安装,防止针脚压弯

2)必须在CPU表面均匀涂抹一层薄薄的散热硅脂

3)加固散热片螺丝的时候必须保证所有螺丝都无法再手工转动

4)安装螺丝的方法:先按对角顺序挂上螺丝,然后再逐步拧紧

5)注意保持CPU触点面的干净,不能黏上散热硅脂等其他异物

2、主板故障

2.1、无法开机

1)先查看BMC log日志的报错信息,如有明确的信息,则按照信息更换相应的硬件。如果故障件集成在主板上,则需要更换主板

2)拆机检查主板外观是否异常,如有物理损坏(磕碰或烧毁部件等),直接更换主板

3)给主板CMOS电池放电,再测试开机

2.2、死机或者无法识别连接部件

1)查看CPU温度是否过高,排除CPU故障

2)通过替换法测试,最小化配置法测试

PS:主板故障的注意事项

1)更换主板会涉及很多部件的拆装,拆装过程中,要轻拿轻放,不要互相磕碰。

2)拆卸、安装时要双手拿握,小心安放。要保证主板放置到位,注意各个部件的连线,依次插接,相应螺丝也要逐步拧紧。

3、内存故障

内存故障主要原因为:内存松动、内存不良、主板内存插槽不良、内存金手指氧化等。可以查看BMC log日志信息,是否存在告警。

PS:内存故障注意事项

1)内存安装时必须插接到位,两边的卡扣必须卡紧

2)故障排除后,需要在BIOS系统和BMC系统中复核内存状态,确认内存是否能够正常识别。

4、硬盘故障

硬盘故障主要原因为:硬盘松动、硬盘接触不良、插接件不良以及松动(硬盘背板、RAID卡、SAS\SATA\PCIe线)

1)查看硬盘状态指示灯是否正常,如果为红灯状态,则确认为硬盘故障,需要更换此硬盘。

2)根据报错日志、BMC日志等,定位报错硬盘物理位置

3)如果硬盘批量丢失,需要替换测试RAID卡和硬盘背板是否存在故障

PS:硬盘故障注意事项

1)更换完硬盘后,需要在BIOS系统、BMC系统或者无盘系统输入命令lsscsi(PCIe硬盘需要使用命令lsblk),确认是否可以识别到硬盘

2)RAID阵列的硬盘故障,需要提前备份好数据,尽量不要使用交叉测试来排除故障,以免造成数据丢失

5、电源故障

电源故障主要原因为:电源接触不良、电源线松动、电源背板不良或松动。

1)检查电源线是否插上或插紧

2)检查PSU指示灯是否正常(绿灯常亮为正常,橙灯或绿灯闪烁为PSU故障)

3)更换PSU后,电源仍无法工作,检查PSU背板或主板

4)可以进入OS查看电源信息,使用命令为ipmitool sdr elist | grep PS,如果输出的电源指标信息不符合要求,则该PSU故障

6、风扇故障

风扇故障主要原因为:风扇不良、插接不良、线位不对(这种情况多出现在更换主板后)、主板风扇电源口故障或主板BMC版本与风扇型号不符等

1)进BMC系统检查是否可以识别到风扇,风扇转速是否在正常范围

2)拆机检查风扇,并重新插拔

3)更换新风扇后再进行测试,如果风扇转速还是异常,则更换风扇背板(部分特殊机型)

4)如果依然无法解决,直接更换主板

7、网卡故障

网卡故障主要原因为:网卡不良、接触不良、网络环境存在异常

1)检查网卡指示灯,如果网卡指示灯不亮,更换网线测试,如果还不亮,则网卡故障。

2)在OS下查看,是否可以识别到网卡信息,如果没有的话,重新插拔一下网卡,如果依据无法识别,则网卡故障

3)在OS下使用ping查看是否存在丢包,使用ip -s link(或ifconfig)结果中查看RX&TX的dropped和error是否为0,如果不为0,则存在问题

4)更换网卡后依旧存在故障,则更换主板

5)更换网卡后,如果故障消失,需要在OS下对网卡状态和网络传输状况进行复查

8、BMC故障

1)使用网线将笔记本电脑连接到BMC管理口,查看BMC管理口指示灯是否正常。如果指示灯不亮,则更换主板。

2)给BMC分配一个IP,如果BMC可以获取到IP,则进行ping测试。如果无法获取,则BMC故障,需要更换主板

总结:1、系统无法开机和死机基本都是CPU、内存、主板故障导致的;系统自动重启一般也是和主板CPU有关

2、服务器故障处理,一般需要综合处理,综合判断,灵活使用

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
29天前
|
存储 数据挖掘 Windows
服务器数据恢复—V7000存储raid5故障导致LUN无法访问的数据恢复案例
服务器数据恢复环境: 三台V7000存储,共有64块SAS硬盘(其中有三块热备盘,其中一块已启用)组建了数组raid5阵列。分配若干LUN,上层安装Windows server操作系统,数据分区格式化为NTFS文件系统。 服务器故障: V7000存储中有多块硬盘出现故障离线,阵列失效,LUN无法访问。需要恢复卷中所有数据(主要为dcm文件)。
|
1月前
|
存储 数据挖掘 虚拟化
服务器数据恢复—Raid5阵列两块硬盘硬件故障掉线的数据恢复案例
服务器数据恢复环境: 一台某品牌存储设备上有一组由10块硬盘(9块数据盘+1块热备盘)组建的raid5阵列,上层部署vmware exsi虚拟化平台。 服务器故障: raid5阵列中两块硬盘对应的指示灯亮黄灯掉线。硬盘序列号无法读取,通过SAS扩展卡也无法读取。
|
13天前
|
存储 Unix Linux
服务器数据恢复—DELL EqualLogic PS6100系列存储简介及发生故障后的处理方案
DELL EqualLogic PS6100系列存储采用虚拟ISCSI SAN阵列,支持VMware、Solaris、Linux、Mac、HP-UX、AIX操作系统,提供全套企业级数据保护和管理功能,具有可扩展性和容错功能。
|
16天前
|
监控 网络协议 安全
DNS服务器故障不容小觑,从应急视角谈DNS架构
DNS服务器故障不容小觑,从应急视角谈DNS架构
38 4
ly~
|
1月前
|
缓存 监控 安全
反向代理服务器的常见故障有哪些?
反向代理服务器常遇到的故障包括配置错误、网络问题、性能瓶颈及安全漏洞。配置相关故障如错误监听端口、域名配置不当及代理转发规则错误,可使用`netstat -tuln`检查端口状态,并验证域名及DNS解析。网络故障涉及连接中断和带宽不足,利用`ping`和`traceroute`检测连通性,用`iftop`监控带宽。性能问题如资源耗尽和缓存不一致需通过`top`监控资源使用,并检查缓存策略。安全故障包括DDoS攻击和配置漏洞,应使用流量分析工具检测异常并加强安全配置,确保SSL/TLS加密和访问控制策略正确无误。
ly~
92 3
|
2月前
|
存储 数据挖掘 数据库
服务器数据恢复—raid磁盘故障导致数据库数据损坏的数据恢复案例
存储中有一组由3块SAS硬盘组建的raid。上层win server操作系统层面划分了3个分区,数据库存放在D分区,备份存放在E分区。 RAID中一块硬盘的指示灯亮红色,D分区无法识别;E分区可识别,但是拷贝文件报错。管理员重启服务器,导致离线的硬盘上线开始同步数据,同步还没有完成就直接强制关机了,之后就没有动过服务器。
|
2月前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
2月前
|
存储 安全 算法
服务器数据恢复—Raid磁盘阵列的安全性分析及常见故障
出于尽可能避免数据灾难的设计初衷,RAID解决了3个问题:容量问题、IO性能问题、存储安全(冗余)问题。从数据恢复的角度讨论RAID的存储安全问题。 常见的起到存储安全作用的RAID方案有RAID1、RAID5及其变形。基本设计思路是相似的:当部分数据异常时,可通过特定算法将数据还原出来。以RAID5为例:如果要记录两个数字,可以通过再多记录这两个数字的和来达到记录冗余性的目的。例如记录3和5,同时再记录这2个数字的和8。在不记得到底是几和5的情况下,只需要用8-5就可以算出这个丢失的数字了,其余情况依此类推。
|
2月前
|
存储 Oracle 关系型数据库
服务器数据恢复—存储硬盘故障导致映射到服务器上的卷挂载不上的数据恢复案例
一台存储上有一组由16块FC硬盘组建了一组raid。存储前面板上的对应10号和13号硬盘的故障灯亮起,存储映射到redhat linux操作系统服务器上的卷挂载不上,业务中断。
|
3月前
|
存储 运维 Windows
服务器数据恢复—V7000存储磁盘阵列柜进水导致故障的数据恢复案例
一台v7000存储机头+7个磁盘阵列柜,阵列柜上共有80块SAS机械硬盘,这些磁盘组建了8组Mdisk,加到一个pool中,一共分配了13个lun。服务器安装Windows server操作系统,格式化为NTFS文件系统,存放的数据主要是影像图片资料。
服务器数据恢复—V7000存储磁盘阵列柜进水导致故障的数据恢复案例