朱晔的互联网架构实践心得S1E4:简单好用的监控六兄弟

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 朱晔的互联网架构实践心得S1E4:简单好用的监控六兄弟 【下载本文PDF进行阅读】 这里所说的六兄弟只指ELK套件(ElasticSearch+Logstash+Kibana)以及TIG套件(Telegraf+InfluxDb+Grafana)。

朱晔的互联网架构实践心得S1E4:简单好用的监控六兄弟

下载本文PDF进行阅读

这里所说的六兄弟只指ELK套件(ElasticSearch+Logstash+Kibana)以及TIG套件(Telegraf+InfluxDb+Grafana)。

 

上图显示了两套独立的体系,ELK和TIG(TIG是我自己编出来的,网上没有类似于ELK这种约定俗成的说法):

这两套体系都由收集器+存储+展示网站构成,青绿色的收集器,蓝绿色的存储,红色的展示网站。

这两套体系都有免费的组件可以使用,安装配置也相对简单(当然公司也要赚钱,他们肯定都主推Cloud版本,一般也不会用Cloud版本,肯定本地部署)。

ELK体系更多用于日志类数据的收集、保存、搜索、查看、报警。

TIG体系更多用于各种Metrics指标类数据的收集、保存、查看、报警。

对于ELK,由于日志数据量往往较大,并且突发日志激增的情况很普遍,写入索引没有这么快,所以一般会引入Kafka之类的消息队列在之前挡一挡。

对于ELK,在进入ES之前数据会有一些过滤解析和额外的报警之类的需求,所以可以使用logstash在之前作为一个汇聚处理层,利用丰富的插件做各种处理。但是logstash的性能不是那么高,对资源的消耗很厉害,使用的时候需要注意。

 

有关ELK

 

上图是Kibana的界面,这里可以看到我们把微服务各个组件的日志都收集到了ES中,在Kibana上可以使用表达式进行各种搜索,最常用的就是按照串联微服务整个流程的RequestID或用户的UserID搜索相关日志了。很多公司的开发习惯到服务器上去一台一台搜索日志,好一点会用ansible批量搜索,这样其实是非常不方便的:

  • 文本的搜索会比ES索引数据库的搜索慢的多。
  • 文本的搜索遇到文件大的话,占用服务器相当多的内存和CPU资源,影响到业务的进行。
  • 文件日志一般会进行归档和压缩,想要搜索非当日的日志不那么方便。
  • 权限不太好控制,而且原始的文件日志对外开放查询的话可能会有安全问题有信息泄露风险。
  • 在把数据统一收集到ES的过程中,我们可以做很多额外的工作,包括脱敏,存储到其它数据源,发邮件和IM通知(比如可以和Slack或钉钉机器人整合)等等。

 

有关异常

我一直有一个观点,我认为再怎么强调异常都不过分,特别是一直上抛到业务表面的未处理异常以及服务中的系统异常。我们可以把异常区分为业务逻辑主动产生的可以预先知道是咋回事的业务异常以及无法预先知道的系统异常。对于系统异常往往意味着底层基础设施(如网络、数据库、中间件)等有抖动或故障或是代码中有Bug(即使不是Bug也是逻辑不完善的情况),每一个异常,我们都需要逐一进行排查调查出根本原因,如果暂时没有时间调查的话,需要记录在案有时间再去调查。对于有些业务量特别大的系统,每天会有几十万的异常,大概有100+以上的情况。最差最差那就做到这几点吧:

  • 全面梳理代码,千万不要吃掉异常了,往往很多时候Bug无法找到原因就是不知道这里吃掉的到底是什么异常。使用ELK我们可以很方便搜索过滤日志,多记一点异常或非正常流程的Error非常有助于我们修Bug。
  • 我们需要对异常出现的频次进行监控和报警,比如XXException最近1分钟有200条异常,时间久了我们会对这些异常有感觉,看到这样的量我们知道这必然是抖动,如果出现XXException最近1分钟有10000条异常,那么我们知道这不一定是网络抖动了,这是依赖服务挂的节奏,马上需要启动应急响应的排查流程。
  • 确保100%关注和处理好空指针、数组越界、并发错误之类的异常,这每一个异常基本就是一个Bug了,会导致业务无法继续的,有的时候这些异常因为绝对数量小会在众多异常中埋没,需要每天单独看这些异常进行逐一解决。这一个异常如果影响到了一个用户正常的流程,那么这个用户可能就流失了,虽然这一个用户只是千万用户中的一员,但是给这一个用户带来的感受是很差的。我一直觉得我们要先于用户发现问题解决问题,最好是等到客服反馈过来的时候(大多数非付费类互联网产品的用户不会因为遇到一个阻碍流程的问题去打客服电话,而是选择放弃这个产品)已经是一个带有修复时间点的已知问题。

做的更好一点甚至我们可以为每一个错误分配一个ID,如果这个错误有机会透传到用户这端,在500页面上不那么明显的地方显示一下这个ID,如果用户截屏反馈问题的话,可以轻易通过这个错误ID在ELK中找到相应错误,一键定位问题。

 

有关TIG

 

上图是Grafana的截图,Grafana支持挺多数据源,InfluxDb也是其中的一个数据源,类似于InfluxDb的产品还有Graphite,也是不错的选择。Telegraf是InfluxDb公司的收集数据的Agent套件,会有相当多的插件,这些插件并不复杂,自己也可以通过Python简单编写,就是有点费时间,有现成的么就用,说白了就是从各个中间件暴露出来的Stats接口收集格式化数据然后写入InfluxDb中去。我们来看看Telegraf支持的插件(图片截取自https://github.com/influxdata/telegraf):

 

使用这些插件运维或开发自己不需要费什么力气就可以把我们所有的基础组件都监控起来了。

 

有关打点

如文本一开始的架构图所示,除了我们可以使用Telegraf的各种插件来收集各种存储、中间件、系统层面的指标之外,我们还做了一个MetricsClient小类库,让程序可以把各种打点的数据保存到InfluxDb。其实每一条进入InfluxDb的Measurement记录只是一个事件,有下面这些信息:

  • 时间戳
  • 各种用于搜索的Tag
  • 值(耗时、执行次数)

如下图我们可以看到在这个bankservice中,我们记录了各种异步同步操作的成功、业务异常、系统异常事件,然后在Grafana进行简单的配置,就可以呈现出需要的图了。

 

对于MetricsClient,可以在代码中手工调用也可以使用AOP的方式进行调用,我们甚至可以为所有方法加上这个关注点,自动收集方法的执行次数、时间、结果(正常、业务异常、系统异常)打点记录到InfluxDb中,然后在Grafana配置自己需要的Dashboard用于监控。

对于RPC框架也是建议框架内部自动整合打点的,保存RPC方法每次执行的情况,细化到方法的粒度配置出一些图表来,在出现事故的时候一键定位到疑似出问题的方法。通过AOP方+RPC框架自动打点其实已经可以覆盖大部分需求了,当然如果我们在代码中再加一些业务层面的打点就更好了。

如果我们为每一个业务行为,配置两个图,一个是调用量,一个是调用性能,如下图:

 

那么:

  • 出现问题的时候,我们可以在很短的时间内判断出哪块有问题。
  • 还可以初步判断出问题的原因是异常导致还是突增的压力所致。

这里推荐的配置方式是根据数据流,从前到后,每一个环节配置一下数据处理的数量和性能:

  • 上游进来的数据
  • 发送到MQ的数据
  • MQ接收到的数据
  • MQ处理完成的数据
  • 和外部交互的请求
  • 得到外部响应的请求
  • 落库的请求
  • 查缓存的请求

出了问题可以及时定位到出问题的模块,或至少是业务线,会比无头苍蝇好很多(当然,如果我们没有事先配置自己需要的Dashboard那也是白搭)。Dashboard一定是需要随着业务的迭代不断去维护的,别经过几轮迭代之前的打点早已废弃,到出了问题的时候再看Dashboard全是0调用。

 

其它

 

Grafana对接InfluxDb数据源挺好的,但是对接MySQL做一些查询总感觉不是特别方便,这里推荐一个开源的系统Metabase,我们可以方便得保存一些SQL进行做一些业务或监控之类的统计。你可能会说了,这些业务统计是运营关注的,而且我们由BI,我们需要自己做这些图表干啥,我想说我们即使搞技术也最好有一个自己的小业务面板,不是说关注业务量而是能有一个地方让我们知道业务跑的情况,在关键的时候看一眼判断一下影响范围。

 

好了,说到这里,你是否已看到了通过这六兄弟,其实我们打造的是一个立体化的监控体系,分享一个排查问题的几步走方式吧,毕竟在出大问题的时候我们的时间往往就只有那么几分钟:

  • 关注异常或系统层面的压力报警,关注业务量掉0(指的是突然下落30%以上)报警。
  • 通过Grafana面板配置的业务Dashboard判断系统哪个模块有压力问题、性能问题。
  • 通过Grafana面板配置的服务调用量和业务进出量,排除上下游问题,定位出问题的模块。
  • 通过Kibana查看相应模块是否出现错误或异常。
  • 根据客户反馈的错误截屏,找到错误ID,在Kibana中搜索全链路日志找问题。
  • 对于细节问题,还有一招就是查请求日志了。我们可以在Web端的系统做一个开关,根据一定的条件可以开启记录详细的Request和Response HTTP Log的开关,有了每一个请求详细的数据,我们可以根据用户信息“看到”用户访问网站的整个过程,这非常有助于我们排查问题。当然,这个数据量可能会非常大,所以需要慎重开启这么重的Trace功能。

有打点、有错误日志、有详细请求日志,还怕定位不到问题?

 

作者: lovecindywang
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
相关实践学习
通过可观测可视化Grafana版进行数据可视化展示与分析
使用可观测可视化Grafana版进行数据可视化展示与分析。
相关文章
|
2天前
|
运维 负载均衡 监控
深入探索微服务架构的核心要素与实践策略
在当今软件开发领域,微服务架构已成为构建灵活、可扩展企业级应用的首选模式。本文旨在剖析微服务架构的设计理念,通过实例阐述其核心组件如服务注册与发现、配置管理、熔断机制等如何协同工作,以提升系统的敏捷性和维护性。同时,探讨了在实践中应对分布式系统复杂性的最佳策略,包括负载均衡、服务监控和日志聚合等关键技术,旨在为后端开发者提供一套完整的微服务实施指南。
15 1
|
3天前
|
消息中间件 缓存 监控
优化微服务架构中的数据库访问:策略与实践
随着微服务架构的普及,如何高效管理和优化数据库访问成为了关键挑战。本文探讨了在微服务环境中优化数据库访问的策略,包括数据库分片、缓存机制、异步处理等技术手段。通过深入分析实际案例和最佳实践,本文旨在为开发者提供实际可行的解决方案,以提升系统性能和可扩展性。
|
3天前
|
缓存 负载均衡 数据管理
深入探索微服务架构的核心要素与实践策略在当今软件开发领域,微服务架构以其独特的优势和灵活性,已成为众多企业和开发者的首选。本文将深入探讨微服务架构的核心要素,包括服务拆分、通信机制、数据管理等,并结合实际案例分析其在不同场景下的应用策略,旨在为读者提供一套全面、深入的微服务架构实践指南。**
**微服务架构作为软件开发领域的热门话题,正引领着一场技术革新。本文从微服务架构的核心要素出发,详细阐述了服务拆分的原则与方法、通信机制的选择与优化、数据管理的策略与挑战等内容。同时,结合具体案例,分析了微服务架构在不同场景下的应用策略,为读者提供了实用的指导和建议。
|
6天前
|
设计模式 消息中间件 监控
深入探索微服务架构的核心要素与实践策略
本文旨在解析微服务架构的关键概念、优势以及实施过程中的最佳实践。通过对微服务架构的基本原则、组件和技术选型的讨论,帮助读者理解如何构建高效、可扩展的微服务系统。同时,文章还将探讨在实践中可能遇到的挑战和解决方案,以期为后端开发者提供有价值的参考。
|
7天前
|
存储 负载均衡 数据库
探索后端技术:从服务器架构到数据库优化的实践之旅
在当今数字化时代,后端技术作为支撑网站和应用运行的核心,扮演着至关重要的角色。本文将带领读者深入后端技术的两大关键领域——服务器架构和数据库优化,通过实践案例揭示其背后的原理与技巧。无论是对于初学者还是经验丰富的开发者,这篇文章都将提供宝贵的见解和实用的知识,帮助读者在后端开发的道路上更进一步。
|
23天前
|
Kubernetes Cloud Native Docker
云原生之旅:从容器到微服务的架构演变
【8月更文挑战第29天】在数字化时代的浪潮下,云原生技术以其灵活性、可扩展性和弹性管理成为企业数字化转型的关键。本文将通过浅显易懂的语言和生动的比喻,带领读者了解云原生的基本概念,探索容器化技术的奥秘,并深入微服务架构的世界。我们将一起见证代码如何转化为现实中的服务,实现快速迭代和高效部署。无论你是初学者还是有经验的开发者,这篇文章都会为你打开一扇通往云原生世界的大门。
|
7天前
|
运维 Cloud Native Devops
云原生架构的崛起与实践云原生架构是一种通过容器化、微服务和DevOps等技术手段,帮助应用系统实现敏捷部署、弹性扩展和高效运维的技术理念。本文将探讨云原生的概念、核心技术以及其在企业中的应用实践,揭示云原生如何成为现代软件开发和运营的主流方式。##
云原生架构是现代IT领域的一场革命,它依托于容器化、微服务和DevOps等核心技术,旨在解决传统架构在应对复杂业务需求时的不足。通过采用云原生方法,企业可以实现敏捷部署、弹性扩展和高效运维,从而大幅提升开发效率和系统可靠性。本文详细阐述了云原生的核心概念、主要技术和实际应用案例,并探讨了企业在实施云原生过程中的挑战与解决方案。无论是正在转型的传统企业,还是寻求创新的互联网企业,云原生都提供了一条实现高效能、高灵活性和高可靠性的技术路径。 ##
18 3
|
12天前
|
监控 负载均衡 应用服务中间件
探索微服务架构下的API网关设计与实践
在数字化浪潮中,微服务架构以其灵活性和可扩展性成为企业IT架构的宠儿。本文将深入浅出地介绍微服务架构下API网关的关键作用,探讨其设计原则与实践要点,旨在帮助读者更好地理解和应用API网关,优化微服务间的通信效率和安全性,实现服务的高可用性和伸缩性。
31 3
|
15天前
|
存储 Java Maven
从零到微服务专家:用Micronaut框架轻松构建未来架构
【9月更文挑战第5天】在现代软件开发中,微服务架构因提升应用的可伸缩性和灵活性而广受欢迎。Micronaut 是一个轻量级的 Java 框架,适合构建微服务。本文介绍如何从零开始使用 Micronaut 搭建微服务架构,包括设置开发环境、创建 Maven 项目并添加 Micronaut 依赖,编写主类启动应用,以及添加控制器处理 HTTP 请求。通过示例代码展示如何实现简单的 “Hello, World!” 功能,并介绍如何通过添加更多依赖来扩展应用功能,如数据访问、验证和安全性等。Micronaut 的强大和灵活性使你能够快速构建复杂的微服务系统。
39 5
|
23天前
|
消息中间件 Java 网络架构
AMQP与微服务架构的集成策略
【8月更文第28天】在微服务架构中,各个服务通常通过HTTP/REST、gRPC等协议进行交互。虽然这些方法在很多场景下工作得很好,但在需要高并发、低延迟或需要处理大量消息的情况下,传统的同步调用方式可能无法满足需求。此时,AMQP作为异步通信的一种标准协议,可以提供一种更为灵活和高效的消息传递机制。
22 1

热门文章

最新文章