以排查系统问题为例,要理解系统,要先关注基础知识,理解编程语言基本的计算 机科学知识,关注系统大图比如架构部署和重大流程,要关注运行细节,要对核心 功能的算法和数据结构了然于心,还要关注系统的运维工具,能够了解发布、回滚 和监控。
在理解的基础上,还要能够复现问题,主要关注问题发生的触发条件以及问题发生 时数据现场的保留,包含指标、链路、日志、事件等。
有了现场再加之对于系统的,才可以定位问题。通过现场保留的数据,进行关联分 析;基于理解,可以快速用二分定位到根因。在定位的过程中,尤其要关注变更,因为有大量的系统问题是由变更导致的。
确定根因后再进行修复,既要治标也要治本,并且要充分验证,确保不引入新的问题。
以上内容摘自 《2021 阿里云可观测技术峰会演讲实录合辑(下)》 电子书,点击https://developer.aliyun.com/ebook/download/7732 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。