线上故障突突突?如何紧急诊断、排查与恢复

简介: 稳定性大于一切,因此我们需要有更有效的方式避免线上故障。在发生故障不可避免的假设下,我们需要能够快速修复,减少线上影响。基于以上这些想法,我们提出了1-5-10的快恢目标,所谓 1-5-10 的目标就是是要我们对于线上问题能够做到1分钟发现,5分钟定位,10分钟修复。

概述


稳定性大于一切,因此我们需要有更有效的方式避免线上故障。在发生故障不可避免的假设下,我们需要能够快速修复,减少线上影响。基于以上这些想法,我们提出了1-5-10的快恢目标,所谓 1-5-10 的目标就是是要我们对于线上问题能够做到1分钟发现,5分钟定位,10分钟修复。下面将会介绍一些阿里云上关于故障恢复、诊断的一些最佳实践。

本文摘自 《微服务治理技术白皮书》 3.9节


1分钟发现

监控


监控的作用一句话概括就是:发现应用中的问题,并将问题及时告警给技术人员进行处理。监控类型可以分为系统问题的监控与业务问题的监控,系统问题:常见的软硬件相关问题,比如程序异常,内存fullGC等,由于没有业务特征,监控策略可适用于各个应用。业务问题:在特定业务场景下定义的问题,比如商品无优惠券,权益超发问题等,需要根据业务特征来定制监控策略。

阿里云实时应用监控服务ARMS能够自动发现和监控应用代码中常见的Web框架和RPC框架,并统计接口的调用量、响应时间、错误数等指标。同时可以进一步获取接口的慢SQL、MQ堆积分析报表或者异常分类报表,对错、慢等常见问题进行更细致的分析。

ARMS还提供了业务监控的能力,以代码无侵入的方式,可视化定义业务请求,提供贴合业务的丰富性能指标与诊断能力。从业务视角衡量应用性能和稳定性的新方式,对业务的关键交易进行全链路的监控。业务监控通过追踪并采集应用程序中的业务信息,实时展现业务级的指标,例如业务的响应时长、次数和错误率,解决了应用程序和业务表现之间无法映射关联的难题。

对于监控的要求有以下三点。实时: 要求对问题的发现和预警是实时的,缩短问题产生和发现的时延;准确: 要求监控和预警是准确的,包括对监控问题的定义,对预警阀值,预警等级,责任人的配置,避免误报;全面: 要求预警信息是全面的,能够帮助排查和解决问题。

“不论应用出现任何问题,ARMS都可以清楚地展示问题出在哪一行代码。ARMS对于我们非常重要,大大缩短了修复故障的时间,显著提升了用户体验。自从用了ARMS,我们能及时发现和修复问题,再也不会被用户投诉所困扰。”  -- 华润万家


告警


当监控发现有问题的时候,就需要通过不同等级的告警将问题及时告警给技术人员进行处理。ARMS告警管理能从以下几点来提升系统的运维效率。

  • 集成事件后管理更高效。
  • 告警管理默认支持一键化集成阿里云常见的监控工具,并支持更多的监控工具手动接入,方便统一维护。
  • 事件接入模块稳定,能提供7x24小时的无间断事件处理服务。
  • 处理海量事件数据时可以保证低延时。
  • 及时准确地将告警通知给联系人。
  • 配置通知规则,对事件合并后再发送告警通知,减少运维人员出现通知疲劳的情况。
  • 根据告警的紧急程度选择邮件、短信、电话、钉钉等不同的通知方式,来提醒联系人处理告警。
  • 通过升级通知对长时间没有处理的告警进行多次提醒,保证告警及时解决。
  • 帮助您快速便捷地管理告警。
  • 联系人能通过钉钉随时处理告警。
  • 使用通用告警格式,联系人能更好的分析告警。
  • 多个联系人通过钉钉协同处理。
  • 统计告警数据,实时分析处理情况,改进告警处理效率。


5分钟定位故障


服务实例隔离与诊断


在线上微服务场景中,当服务提供者的某些实例出现异常时,一方面,需要避免服务消费者访问到异常实例,另一方面,需要保留异常现场,便于后续的问题排查。出于另一个思路考虑,我们都知道 Dump 内存在一定程度上会影响我们应用的性能,可能会对我们的线上业务造成影响,我们是否可以在Dump内存之前将业务流量从该实例上隔离。MSE 治理中心服务实例隔离与诊断功能可以帮助我们将异常实例的流量隔离,一方面支持将来自微服务的流量进行隔离,另一方面支持将来自K8s Service的流量进行隔离,可以彻底隔离掉生产环境中的业务流量,然后我们可以结合阿里云应用实时监控服务ARMS所提供的内存快照生成能力,及时生成异常实例的线上环境内存快照,帮助我们进行后续问题分析与诊断。服务实例隔离与诊断功能能很好地帮助我们应对线上突发的事故(比如内存泄露等),提升微服务系统整体稳定性。


实践

我们可以在MSE服务治理的控制台看到在线的实例列表。

image.png


选择特定异常实例,进行服务下线操作,将实例从注册中心中移除,同时如果我们配置了MSE提供的就绪检查探针,还会将来自K8s Service的流量进行隔离,我们可以在事件中心里查看对应实例是否下线成功。

image.png


进行下线操作后,我们可以通过MSE提供的秒级节点监控看到是否还有流量。等流量完全停止后,可通过阿里云应用监控服务ARMS提供的创建内存快照功能,给异常实例创建内存快照,以便后续进一步的问题排查。

image.png


点击去创建内存快照按钮,进行内存快照创建。

image.png


点击保存即可创建快照任务。

image.png


点击保存后我们看到 172.16.0.200 这个实例已经存在快照

image.png


进一步根据控制台的提示,我们分别将Core File进行转储、分析、查看

image.png


image.png


点击查看后,自动跳转至Grace分析的页面,我们可以看到内存分析的概况,内存泄露报表、类加载器等等一系列信息。通过详细的内存分析数据查看内存占用的详细信息,从而进一步排查内存泄漏和内存浪费等内存问题。

image.png


image.png


最后提一下,我们可以通过服务上线恢复隔离的流量。

image.png


Arthas 诊断


Arthas是诊断Java领域线上问题的利器,利用字节码增强技术,可以在不重启JVM进程的情况下,查看程序的运行情况。


JVM概览

JVM概览支持查看应用的JVM相关信息,包括JVM内存、操作系统信息、变量信息等,帮助我们了解JVM的总体情况。

  • JVM内存:JVM内存的相关信息,包括堆内存使用情况、非堆内存使用情况、GC情况等。

image.png


  • 操作系统信息:操作系统的相关信息,包括平均负载情况,操作系统名称、操作系统版本、Java版本等。

image.png


  • 变量信息:变量的相关信息,包括系统变量和环境变量。

image.png


线程耗时分析

线程耗时分析支持显示该应用的所有线程和查看线程的堆栈信息,帮助我们快速定位耗时较高的线程。

  1. 线程耗时分析页签会实时获取当前JVM进程的线程耗时情况,并将相似线程聚合。可以查看线程的ID、CPU使用率和状态。

image.png


2.我们可以在目标线程右侧的操作列,单击查看实时堆栈

image.png


方法执行分析

方法执行分析支持抓取方法的某一次执行的耗时、入参、返回值等信息和钻入,帮助您快速定位导致慢调用的根本原因,以及问题线下无法复现或日志缺失等场景。

image.png


  • 如下图所示,每一次内部方法的执行耗时都会以注释的方式显示在源代码中。

image.png


对象查看器

对象查看器用于查看一些单例对象当前的状态,用于排查应用状态异常问题,例如应用配置、黑白名单、成员变量等。

image.png


实时看板

实时看板用于查看系统中用到的关键组件的实时状态,例如查看数据库连接池的使用情况、HTTP连接池的使用情况等,有利于排查资源类型的问题。

  1. 如下图显示为一个Druid连接池的实时状态信息,包括基础配置、连接池状态、执行耗时分布等。

image.png


性能分析

性能分析支持对CPU耗时、内存分配等对象进行一定时间的采样并生成相应的火焰图,帮助您快速定位应用的性能瓶颈。

image.png


10分钟恢复


离群实例摘除

在微服务架构中,当服务提供者的应用的某些实例出现异常,而服务消费者无法感知时会影响服务的正常调用,并影响消费者的服务性能甚至可用性。离群实例摘除功能会检测应用实例的可用性并进行动态调整,以保证服务成功调用,从而提升业务的稳定性和服务质量。

image.png


服务熔断与降级

当应用遇到业务高峰期,发现下游的服务提供者遇到性能瓶颈,甚至即将影响业务时。我们可以对部分的服务消费者进行服务熔断操作,针对持续不稳定调用的自动熔断,从而提升整体服务的稳定性。当应用依赖的下游服务出现不可用的情况,导致业务流量损失。您可以通过配置服务熔断能力,当下游服务出现异常时,服务降级使流量可以在调用端 "fail fast",有效防止雪崩。

在业务高峰期,某些下游的服务提供者遇到性能瓶颈,甚至影响业务。我们对部分非关键服务消费者配置自动熔断,当一段时间内的慢调用比例或错误比例达到一定条件时自动触发熔断,后续一段时间服务调用直接返回Mock的结果,这样既可以保障调用端不被不稳定服务拖垮,又可以给不稳定下游服务一些“喘息”的时间,同时可以保障整个业务链路的正常运转。

image.png


另外一些场景,服务降级可以帮助我们保障一些重要的服务。一些非关键的服务不太稳定,希望在重要活动前临时降级掉这些弱依赖服务调用,把资源保留给其它核心服务,从而保证整体业务的顺畅。

image.png


离群实例摘除与服务熔断、服务降级主要是体现在两点:

  1. 自动完成:服务降级是一种运维动作,需要通过控制台进行配置,并且指定对应的服务名才能做到相应的效果;而离群实例摘除、服务熔断能力是会主动探测上游节点的存活情况或者服务调用的成功异常、慢调用等情况,在这条链路上做自动的隔离或者熔断操作,保障服务的质量。
  2. 摘除粒度:服务降级降级的是(服务+节点IP),以 Dubbo 举例子,一个进程会发布以服务接口名(Interface)为服务名的微服务,如果触发到这个服务的降级,下次将不再调用这个节点的此服务,但是还是会调用其他服务。但是离群实例摘除是整个节点都不会去尝试调用。


流控、扩容、重启、回滚

  • 流量控制:根据流量、并发线程数、响应时间等指标,把随机到来的流量调整成合适的形状,即流量塑形。通过流控能力,为服务接口配置流控规则,让容量范围内的请求通过,多余的请求被拒绝,相当于安全气囊的作用。层层防护,在 Nginx/Ingress 网关层进行粗粒度保护,在微服务层进行 API、接口、方法、参数粒度控制。避免应用被瞬时的流量高峰冲垮,从而保障应用的高可用性。

image.png


  • 扩容:水平横向扩容提升集群可用性
  • 重启:重新启动JVM进程,从而暂时消除长时间运行累积的问题如内存泄露等
  • 回滚:消除变更引入的问题


基于同可用区优先的一键切流

同城的特点是 RT 一般处在一个比较底的延迟(< 3ms 以内),所以在默认情况下,我们可以基于同城的不同可用区搭建起来一个大的局域网,然后把我们应用跨可用区分布在多个可用区中,以此来应对单可用区出现故障时可以更好地控制故障的影响面。

image.png


MSE 服务治理在服务框架层面提供了同机房优先路由的能力,如果目标服务和自己所在可用区相同,则优先将流量路由至和当前同可用区的节点。当某个可用区出现不可用的情况,我们只需在网关对流量进行切流,将出故障可用区的流量隔离,即马上可恢复我们的业务。



1-5-10 故障快恢,故障1分钟响应、5分钟定位、10分钟恢复;只有不断地面向失败地设计、基于故障应急方式演练,那么在真正遇到线上故障的时候我们才可以更加从容地面对故障。我们希望新一代的云原生微服务能更多地具备系统自愈能力,微服务架构内部可以自动感知外部组件的失效,自动切换至备用链路,真正地把故障扼杀在摇篮之中。



相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
相关文章
|
图形学
Unity 不同Scene场景转换(简)
本文提供了Unity中实现场景转换的基本方法,包括编写传送脚本、创建传送门和玩家对象,并通过触发器实现玩家触碰传送门时切换到另一个场景的功能。
Unity 不同Scene场景转换(简)
|
Java
Java @Data 注解详细说明
Data注解是 Lombok 提供的一个组合注解,它会为类自动生成一些常见方法的样板代码,包括 getter、setter、equals、hashCode 和 toString 方法。
2566 5
|
1月前
|
人工智能 搜索推荐 算法
警惕AI时代的陷阱:Geo优化中容易踩的坑与人性化Geo的破局之道
随着生成式AI兴起,Geo优化成企业获客新战场。专家于磊指出,黑帽手段、忽视E-E-A-T、关键词堆砌是三大常见陷阱。他倡导“人性化Geo”理念,强调内容真实性、专业性与语义设计,助力企业实现可持续增长。
345 158
|
消息中间件 数据可视化 关系型数据库
(3)sparkstreaming从kafka接入实时数据流最终实现数据可视化展示
1)我们通过kafka与各个业务系统的数据对接,将各系统中的数据实时接到kafka; 2)通过sparkstreaming接入kafka数据流,定义时间窗口和计算窗口大小,业务计算逻辑处理; 3)将结果数据写入到mysql; 4)通过可视化平台接入mysql数据库,这里使用的是NBI大数据可视化构建平台; 5)在平台上通过拖拽式构建各种数据应用,数据展示;
(3)sparkstreaming从kafka接入实时数据流最终实现数据可视化展示
|
Java 开发者 C++
Java多线程同步大揭秘:synchronized与Lock的终极对决!
【6月更文挑战第20天】在Java多线程编程中,`synchronized`和`Lock`是两种关键的同步机制。`synchronized`作为内置关键字提供基础同步,简单但可能不够灵活;而`Lock`接口自Java 5引入,提供更复杂的控制和优化性能的选项。在低竞争场景下,`synchronized`性能可能更好,但在高并发或需要精细控制时,`Lock`(如`ReentrantLock`)更具优势。选择哪种取决于具体需求和场景,理解两者机制至关重要。
271 1
|
12月前
|
安全 算法 网络安全
HTTP和HTTPS的区别
本文介绍HTTP与HTTPS的区别、HTTPS链接建立过程及常见加密算法。HTTP为明文传输,易被窃听;HTTPS通过SSL/TLS协议加密,确保数据安全。HTTPS使用端口443,提供认证机制。文中还详细讲解了对称加密(如AES、DES)和非对称加密(如RSA、ECC)算法的特点及应用场景。
|
SQL 监控 关系型数据库
深入解析MySQL死锁:原因、检测与解决方案
深入解析MySQL死锁:原因、检测与解决方案
|
小程序 安全 JavaScript
微信小程序-网络请求
微信小程序-网络请求
484 0
|
存储 缓存 关系型数据库
MySQL有哪些存储引擎,各自的优缺点,应用场景
经常面试都会问到MYSQL有哪些存储引擎,以及各自的优缺点。今天主要分享常见的存储引擎:MyISAM、InnoDB、MERGE、MEMORY(HEAP)、BDB(BerkeleyDB)等,以及最常用的MyISAM与InnoDB两个引擎 ,文章尾部有两者的详细比较。
2563 0
如何设计可靠的灰度方案
一个较大的业务或系统改动,往往会影响整个产品的用户体验或操作流程。为了控制影响面,可以选取一批特定用户、流程、单据等,只允许这一部分用户或数据按照变更后的新逻辑在系统中流转,而另一部分用户仍然执行变更前的老逻辑。这一步是线上系统灰度方案的起点。
如何设计可靠的灰度方案

热门文章

最新文章