IDC服务器故障排除思路-阿里云开发者社区

IDC服务器故障排除思路

2024-10-06 68

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介： 本文详细介绍了服务器维修流程，包括维修前的工具和备件准备，以及不拆机情况下的初步检查步骤。文中还提供了拆机维修的具体方法，如最小化测试法、替换法和交叉比较法，并针对CPU、主板、内存、硬盘、电源、风扇、网卡及BMC等主要配件的故障排除进行了说明，强调了注意事项，旨在帮助技术人员快速准确地定位并解决问题。

一、维修前准备

1、工具准备

笔记本电脑、拆机工具、DOS系统引导U盘、U盘Linux系统、万用表（主板或不开机故障）、防静电手环、网线、散热硅胶等。

2、备件准备

硬盘、内存、CPU、主板、电源模块等备件

二、常规检查

在不拆机、不断电的情况下检查故障服务器

1、检查开机状态下服务器指示灯是否正常

2、检查有无明显异味、有无明显异响

3、检查外观有无明显磕碰、变形等物理损伤

4、检查电源线、电源开关是否正常

5、登录BMC系统，查看设备状态和日志，定位故障服务器部件

6、在授权可以关机断电的情况下，重启服务器，查看BIOS信息和BMCSEL信息定位服务器故障部件

7、如确定为可热插拔的设备造成，可以直接不关机的情况下进行更换解决，比如更换硬盘

三、拆机维修

提前佩戴好防静电手环，手环必须接触皮肤，不可以带到衣服之外，另一端连接到能够接地的金属器物，比如机柜等。

1、最小化测试法

当无法定位到具体故障时，可以通过能开机的最小化配置并逐步添加部件来判断故障范围。

除了主板外，只保留单颗CPU、单根内存，一个PSU，用短接开关针脚方式开机，来进行判断。再依次替换部件进行排查。如果最小化可以正常开机，再逐步添加其他部件，通过重启服务器来判断是哪个部件故障。

2、替换法

当大概知道故障范围时，可以通过1-3个部件逐步替换来查找出具体故障，检查故障现象是否有变化，来确认具体故障点。

通过逐一替换服务器内的疑似故障部件，观察故障现象是否消失，以此定位故障部件。可以先替换比较容易出故障的部件，比如硬盘、内存等。

3、交叉比较法

通过同类型的部件（出现故障的零件和正常运行的零件）交叉安装测试，来排除故障部件。如果出现故障状况消失，则有可能是部件安装不到位。如果故障状况随报错部件转移，则可以判断此报错部件为故障，将其更换。如果故障状况没有随报错部件转移，则可以判断非此部件故障，需要继续进行交叉替换测试。

PS：以上方法，不一定单独使用，可以具体情况具体分析，可以灵活组合使用

四、主要配件故障排除思路

1、CPU故障

1.1、无法开机

1）查看服务器的BMC log日志，来定位故障CPU位置

2）拆机检查故障位置CPU和散热器是否存在接触问题

3）重新拆装CPU确认接触针脚是否弯曲不良

4）单CPU测试、交叉更换CPU测试，确认是否是单CPU故障

5）最小化测试，确认是否是其他部件故障

6）给主板的CMOS放电

1.2、死机或频繁自动重启

1）进BMC系统查看CPU温度以及各风扇状态是否正常

2）如果温度异常的话，拆机检查服务器挡风罩是否安装到位。检查CPU散热片固定螺丝是否松动，和散热器的接触是否异常，CPU硅脂是否涂抹。如温度正常，则交叉测试CPU，来确认是否是CPU自身故障。

1.3、报内存错误

只有多条内存的报错位置属于同一CPU控制的情况下，才有可能是CPU故障。

1）确认内存槽位，以此确认所涉及的CPU位置

2）CPU交叉测试

PS：CPU故障注意事项：

1）更换CPU的时候，注意卡座上的防呆标志（小三角标志或者缺口位置），对齐再安装，防止针脚压弯

2）必须在CPU表面均匀涂抹一层薄薄的散热硅脂

3）加固散热片螺丝的时候必须保证所有螺丝都无法再手工转动

4）安装螺丝的方法：先按对角顺序挂上螺丝，然后再逐步拧紧

5）注意保持CPU触点面的干净，不能黏上散热硅脂等其他异物

2、主板故障

2.1、无法开机

1）先查看BMC log日志的报错信息，如有明确的信息，则按照信息更换相应的硬件。如果故障件集成在主板上，则需要更换主板

2）拆机检查主板外观是否异常，如有物理损坏（磕碰或烧毁部件等），直接更换主板

3）给主板CMOS电池放电，再测试开机

2.2、死机或者无法识别连接部件

1）查看CPU温度是否过高，排除CPU故障

2）通过替换法测试，最小化配置法测试

PS：主板故障的注意事项

1）更换主板会涉及很多部件的拆装，拆装过程中，要轻拿轻放，不要互相磕碰。

2）拆卸、安装时要双手拿握，小心安放。要保证主板放置到位，注意各个部件的连线，依次插接，相应螺丝也要逐步拧紧。

3、内存故障

内存故障主要原因为：内存松动、内存不良、主板内存插槽不良、内存金手指氧化等。可以查看BMC log日志信息，是否存在告警。

PS：内存故障注意事项

1）内存安装时必须插接到位，两边的卡扣必须卡紧

2）故障排除后，需要在BIOS系统和BMC系统中复核内存状态，确认内存是否能够正常识别。

4、硬盘故障

硬盘故障主要原因为：硬盘松动、硬盘接触不良、插接件不良以及松动（硬盘背板、RAID卡、SAS\SATA\PCIe线）

1）查看硬盘状态指示灯是否正常，如果为红灯状态，则确认为硬盘故障，需要更换此硬盘。

2）根据报错日志、BMC日志等，定位报错硬盘物理位置

3）如果硬盘批量丢失，需要替换测试RAID卡和硬盘背板是否存在故障

PS：硬盘故障注意事项

1）更换完硬盘后，需要在BIOS系统、BMC系统或者无盘系统输入命令lsscsi（PCIe硬盘需要使用命令lsblk），确认是否可以识别到硬盘

2）RAID阵列的硬盘故障，需要提前备份好数据，尽量不要使用交叉测试来排除故障，以免造成数据丢失

5、电源故障

电源故障主要原因为：电源接触不良、电源线松动、电源背板不良或松动。

1）检查电源线是否插上或插紧

2）检查PSU指示灯是否正常（绿灯常亮为正常，橙灯或绿灯闪烁为PSU故障）

3）更换PSU后，电源仍无法工作，检查PSU背板或主板

4）可以进入OS查看电源信息，使用命令为ipmitool sdr elist | grep PS，如果输出的电源指标信息不符合要求，则该PSU故障

6、风扇故障

风扇故障主要原因为：风扇不良、插接不良、线位不对（这种情况多出现在更换主板后）、主板风扇电源口故障或主板BMC版本与风扇型号不符等

1）进BMC系统检查是否可以识别到风扇，风扇转速是否在正常范围

2）拆机检查风扇，并重新插拔

3）更换新风扇后再进行测试，如果风扇转速还是异常，则更换风扇背板（部分特殊机型）

4）如果依然无法解决，直接更换主板

7、网卡故障

网卡故障主要原因为：网卡不良、接触不良、网络环境存在异常

1）检查网卡指示灯，如果网卡指示灯不亮，更换网线测试，如果还不亮，则网卡故障。

2）在OS下查看，是否可以识别到网卡信息，如果没有的话，重新插拔一下网卡，如果依据无法识别，则网卡故障

3）在OS下使用ping查看是否存在丢包，使用ip -s link(或ifconfig)结果中查看RX&TX的dropped和error是否为0，如果不为0，则存在问题

4）更换网卡后依旧存在故障，则更换主板

5）更换网卡后，如果故障消失，需要在OS下对网卡状态和网络传输状况进行复查

8、BMC故障

1）使用网线将笔记本电脑连接到BMC管理口，查看BMC管理口指示灯是否正常。如果指示灯不亮，则更换主板。

2）给BMC分配一个IP，如果BMC可以获取到IP，则进行ping测试。如果无法获取，则BMC故障，需要更换主板

总结：1、系统无法开机和死机基本都是CPU、内存、主板故障导致的；系统自动重启一般也是和主板CPU有关

2、服务器故障处理，一般需要综合处理，综合判断，灵活使用

IDC服务器故障排除思路

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

IDC服务器故障排除思路

热门文章

最新文章

相关课程

相关电子书

相关实验场景