2.2 故障
ITIL中定义故障为IT服务意外中断或IT服务质量降低。且尚未对服务产生影响的
配置项失效也是一种故障。
以阿里巴巴经济体为例,其故障定义为除用户方环境或者用户自身操作引起的情
况外,其他无论什么原因导致的服务中断、服务品质下降或者用户服务体验下降的事件都为故障。
无论理论还是实践,均证明故障只要有发生的可能,它总会发生。所以故障管理
是很有必要的。故障管理是围绕故障全生命周期采取的一系列控制流程,包括故障等级定义、故障发现、故障响应、故障定位、故障恢复、故障复盘及持续改进(含故障演练)。故障管理的目标是预防可预知的问题,快速恢复不能预知的问题,以及确保已发生的问题不再重复发生。这也是保障、提升业务稳定性的有效手段,通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,来降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。