开发者社区> 问答> 正文

值班机制建设该如何让建设?

值班机制建设该如何让建设?

展开
收起
zxynnn 2022-05-10 12:19:46 427 0
1 条回答
写回答
取消 提交回答
  • 值班,既能让大家熟悉业务,又能让SRE不那么劳累,因此,值班人员一方面要响应报警,另一方面要响应工单。SRE要做的事情,是安排好值班表和值班机制,明确值班人员的职责。一般来说,可以如下建设: • 事前: • 值班人员必须参与故障演练(包括故障止血方法)以及熟练使用各种故障排查工具。 • 值班人员需要明确值班的范围,包括预警群、工单群、线上问题反馈群、答疑群等; • 值班人员在值班周期内,应该减少业务工作安排; • 值班人员的值班周期不宜过长或者过短,以一周为宜; • SRE应该尽可能的多值班,只有对业务熟悉的人,才能更加敏锐的发现系统的问题; • 新进入团队的同学,应该先值几个月的轮班,通过值班熟悉业务,是最快的方式; • 事中:不管是工单问题还是报警,如果短时间无法定位原因的情况,立即把相关人员拉入电话会议,如果遇到卡点,需要把接力棒明确交接给下一位,事后再回顾卡点的原因。对于会影响上下游的问题(事故),需要立刻通知上下游,可能引起故障的,需要GOC报备。 • 值班人员自己发现问题后,应该第一时间在群里反馈说处理中,签到通知其他人已经在处理 • 关闭当前报警的通知(关闭方法集中沉淀到常见问题处理手册),防止电话打爆掩盖其他更重要的报警,事后再重开报警(由当前值班人员保证) • 事后:值班人员和SRE一起组织问题Review,并把涉及到稳定性的操作内容记录在稳定性流程中。对于常见问题的排查沉淀到一处,后续工具化和演练。 值得注意的是,值班不应该是简单的人力消耗,应该花费时间开发工具平台,包括问题智能排查、订单详情查询,业务日志轨迹、数据变更轨迹查询,并且开发问题自动排查、问题解决方案自动推荐机器人,做到自动答疑、自助答疑,减少工单数量,提高问题排查效率。

    2022-05-10 12:29:27
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
以银行架构视角解读和落实银行数字化转型的两份重磅指导文件 立即下载
互联网企业通用业务安全防控体系建设 立即下载
破壁计划--顺丰IT运维转型的最初一公里 立即下载