《云上业务稳定性保障实践白皮书》——二. 理论概念——2.2 故障

简介: 《云上业务稳定性保障实践白皮书》——二. 理论概念——2.2 故障

2.2 故障


ITIL中定义故障为IT服务意外中断或IT服务质量降低。且尚未对服务产生影响的

配置项失效也是一种故障。

以阿里巴巴经济体为例,其故障定义为除用户方环境或者用户自身操作引起的情

况外,其他无论什么原因导致的服务中断、服务品质下降或者用户服务体验下降的事件都为故障。

无论理论还是实践,均证明故障只要有发生的可能,它总会发生。所以故障管理

是很有必要的。故障管理是围绕故障全生命周期采取的一系列控制流程,包括故障等级定义、故障发现、故障响应、故障定位、故障恢复、故障复盘及持续改进(含故障演练)。故障管理的目标是预防可预知的问题,快速恢复不能预知的问题,以及确保已发生的问题不再重复发生。这也是保障、提升业务稳定性的有效手段,通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,来降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。

相关文章
|
运维 监控 测试技术
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(4)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(4)
154 0
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(4)
|
监控
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.1 稳定性
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.1 稳定性
317 0
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.3 名词解释
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.3 名词解释
100 0
|
缓存 监控 容灾
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(下)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(下)
179 0
|
缓存 监控 网络协议
云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(上)
云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(上)
238 0
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.4故障演练与紧急预案设计
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.4故障演练与紧急预案设计
187 0
|
弹性计算 数据安全/隐私保护
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1游戏业务稳定性保障
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1游戏业务稳定性保障
143 0
|
运维 监控 中间件
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现
203 0
|
弹性计算 运维 Kubernetes
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(3)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(3)
221 0
|
弹性计算 运维 Kubernetes
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(1)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(1)
185 0