当下 BAT、美团、字节跳动等一线大厂都在加速推进业务的容器化、云原生化。打开这篇文章的你,应该或多或少跟云计算、容器、Kubernetes、云原生应用有过接触。
在这样的背景之下,很多问题成了开发、测试、运维同学的家常便饭:
- 某个新版本发布上线之后,发现主机的 CPU 使用率持续飙高,但不知道根本原因在哪,只能根据过往的经验一一排查;
- 新版本上线之后,很难判断功能是不是完全正常,只能等着用户找客服投诉之后,才知道哪个模块出现了报错;
- 基础设施方面,通过监控搞了一大堆稀奇古怪的仪表盘,看着花花绿绿一大片,可是又不能反映出业务的真实情况,也不能跟随业务的变化而灵活调整。
局面混乱,效率又不高。可以说,监控,被架到了一个不得不革自己命的位置。而可观测性(Observability)就是解决这些问题的关键。
甚至,Gartner 在 2022 年度的基础设施和运维自动化技术成熟度周期图里,把“可观测性”放在膨胀期波峰最顶端位置,可以说是风头正盛。
可观测性适用于任何关心代码在生产环境中的运行质量的人。它可以监测和解决生产系统中复杂而新颖的问题。具体到岗位上:可观测性能够架起开发人员和运维人员构建合作的桥梁:运维人员使用它来发现问题,给故障现场提供足够的数据让开发人员进行分析,而开发人员可以使用它来指导运维人员定位问题,并使用工具来质疑和验证假设。此外,测试、DevOps 工程师、SRE 工程师等角色都可以了解和学习可观测性,以此提高产品质量和服务可靠性。
如何学习可观测性?
虽说,可观测性是云原生一个绕不开的话题,但是可观测性到底指的是什么?效果又是否真的能达到预期?到底是自建可观测性平台还是直接购买比较好?如何搭建可观测平台?……网上关于上面的疑惑的解答很多,但资料非常驳杂,没有真正成体系化的知识。繁杂的数据中快速提炼有用的数据,高效解决可观测性的问题,是非常难的。在这里给大家推荐观测云的产品技术总监翁一磊总结的「可观测性学习路径」:上图内容来自,他在极客时间开设的新专栏《深入浅出可观测性》。
为什么说翁一磊能讲好可观测性?
翁一磊,观测云的产品技术总监,主要负责售前技术和客户服务工作。他曾经就职于微软、HP、Dell EMC 等外企,从最初的技术支持,到售前以及项目交付,再到解决方案集成与验证,相关的工作可以说是做了一圈。从外企出来之后,他负责过多云管理产品。计算机软件领域的可观测性,在国外是在 2018 年左右提出的,现在已经有了不少玩家,比如久负盛名的 DataDog;而国内是在今年,可观测性才成为热门话题的。
近几年的观察让他意识到,很多时候人们只是把原来传统的监控换了一个壳子,变成了可观测性。正所谓新瓶装旧酒,但其实这并不是真正意义上的可观测性。而为了矫正这种观点,看清可观测性的本质和价值,他结合自己在这一领域多年的经验和思考,带你直抵可观测性的内核,合理、高效地部署可观测平台。
这门专栏是如何设计的?
在这个可观测性的课程中,他会从下面几个方面为你展开讲解:
概念篇:为了更好地理解可观测性,首先带你理一理监控的发展历程。接着,他会详细解读可观测性相关的基本概念,包括你可能经常听到的可观测性三支柱。之后带你一起辨析可观测性和传统监控的区别。
基础篇:他会首先介绍一下 OpenTelemetry ,这是目前可观测领域非常成熟和热门的标准和规范,在此基础上,带你进一步了解如何实现和建立非某个供应商锁定的可观测性。接下来,还会给你分析购买或自己搭建可观测性的利弊,拥有全局观念,在有需求的时候理智下判断。实战篇:这部分是专栏的重头戏,毕竟可观测性最重要的目标,就是保障系统和应用的服务可靠性。这个模块,会讲到团队协作,可观测驱动的开发,建立、跟踪SLO等话题,然后他会选取微服务架构的系统,带你搭建起这个系统的可观测性,让你在动手操练的过程中更好地掌握可观测性,并能够通过可观测性来分析和解决问题。总结与展望篇:讲述如何构建可观测性的文化和框架,让你了解在企业中推广可观测性需要优先考虑的关键能力。还会给你介绍可观测性未来的发展趋势。 接下来,我们通过目录来看看具体内容吧: