开发者社区> 问答> 正文

故障应急过程是什么?

故障应急过程是什么?

展开
收起
zxynnn 2022-05-10 12:19:06 488 0
1 条回答
写回答
取消 提交回答
  • 组织大家按照故障场景梳理的应对方案进行应对,如果没有在故障场景列表中,一定要组织最熟练的人员进行定位和恢复。 故障过程中,对外通信要跟团队和老板统一评估过再说; 处理故障过程中,要随时组织同学们进行影响数据捞取和评估,捞出来的数据,要优先跟老板、业务熟练的同学一起评估是否有错漏。 在处理完故障后,要及时组织复盘(不管GOC是不是统一组织复盘,内部都要更加深刻的复盘),复盘流程至少包括:详细的时间线,详细的原因,详细的定位和解决方案,后续action和改进措施,本次故障的处理结果。 我个人其实不太赞同预案自动化和强运营的故障应急方案,这一点也是给安全生产同学的建议,比如预案自动化,有很强的局限性,只有在明确预案的执行肯定不会有问题、或者明显有优化作用的情况下,才能自动执行。否则都应该有人为判断。

    2022-05-10 12:26:48
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
阿里电商故障治理和故障演练实践 立即下载
复杂网络架构下的网络故障智能处理—DC Brain之故障篇 立即下载
网络流量异常行为分析系统 立即下载