SpringBoot+MDC链路追踪trace_id丢失

本文涉及的产品
可观测链路 OpenTelemetry 版,每月50GB免费额度
日志服务 SLS,月写入数据量 50GB 1个月
简介: 前言trace_id是用来标识同一个请求的唯一标识,不管请求经过多少服务,都可以通过tracid排查对应模块的日志信息找到对应请求的一些细节,是排查问题的一个重要线索。

前言

trace_id是用来标识同一个请求的唯一标识,不管请求经过多少服务,都可以通过tracid排查对应模块的日志信息找到对应请求的一些细节,是排查问题的一个重要线索。

在当下分布式系统相对成熟的环境下,链路追踪方案百花齐放,各种中间件层出不穷,不知道选哪个好。不过在早期的分布式应用里的链路追踪是自己实现的,以至于模块之间的调用有时会出现tracid为空的情况。这次正好遇到了这个bug,正好记录下。

首先先介绍下内部早期服务的链路追踪方案,Java服务这块是使用的SpringBoot+MDC实现,按正常的思路参数里默认加上了trace_id参数,进到服务的第一层时先判断当前线程上下文中是否存在trace_id变量,没有的话从请求参数里获取trace_id变量,如果请求中也没有则认为是入口请求,随机生成一个uuid作为trace_id向下传递。

MDC

MDC是一个映射,用于存储运行上下文的特定线程的上下文数据,本质上是一层对ThreadLocal的封装,在logback-spring.xml中配置上打印规则,使用log4j进行日志打印出每个应用的trace_id

css复制代码[%X{TRACE_ID}]

方案合情合理,页面端发起请求,网关服务生成trace_id向下传递,每个服务依次传递都很和谐,但就是在某个地方出现A服务通过RPC组件调用B服务时出现了BUG。这种年久失修的问题谁都不想改,但没办法指到了我这了只能硬着头皮查了。

理论上MDC绑定了线程信息,而且trace_id丢失的场景下没有多线程线程切换的场景,那么只能把矛头指向祖传的拦截器和过滤器了。

拦截器与过滤器

由于一些历史原因,一个Java服务夹杂着各种过滤器、过滤器,有的是自身服务的,有的是二方包里的,搞得一个请求链路错综复杂。顺着日志一条一条看,发现在进入到接口层之前trace_id一直是对的,在执行完接口后就出现了问题,trace_id值变了,也就是一个请求出现了两个trace_id。

仔细分析一下其实不难定位,问题的根源其实来自于拦截器过滤器的机制,这里先回顾一个老八股,在springboot应用中一个请求是执行到拦截器还是先执行到过滤器? 答案是毋庸置疑的,肯定先执行到过滤器Filter再执行到拦截器Interceptor。

那么错综复杂的各种拦截机制在老版本的服务里构造成了一个类似洋葱模型的拦截机制,请求在进入服务之前先进行一些业务日志处理和请求参数的校验,在请求走完逻辑之后,又会重新再走每个拦截器过滤器的post方法。

如果请求进入到接口层之前没问题,在执行完接口后就出现了问题,那么肯定是某个组件搞了幺蛾子把MDC里的东西搞丢了。

lua复制代码+-----  common_filter  -----+
| +---- a_interceptor ----+ |
| | +-- b_interceptor --+ | |
| | |                   | | |
| | |    interface      | | |
| | |                   | | |
| | +-- b_interceptor --+ | |
| +---- a_interceptor ----+ |
+-----  parentA_filter -----+

理一下逻辑,当请求某个服务的接口时,请求会先进入统一的公共过滤器common_filter,在这一层会打印出访问的uri、以及来源ip等等信息,并生成trace_id放入MDC中向下传递。当进入到a_interceptor、b_interceptor都没问题,统一先从MDC中取出来,如果没有取到判断参数中有没有trace_id,没有的话就重新生成一个(其实这个逻辑也应该优化下,现在成熟的链路追踪方案都是放到header中,这里应该判断header和参数)。

仔细排查当请求被服务处理完之后会发现后续的trace_id都不对了,在b_interceptor就断掉了,去对应的二方库里扒拉出来一看。

那么好了好了,一切都说通了,不知道哪路神仙在b_interceptor的post方法里把MDC给清除了,导致后续处理trace_id都不对。开始没啥思路我都怀疑是不是tomcat切换线程的bug了,甚至出现了要给springboot换undertow容器的念头。

还好打消了,不然摸鱼的时间又少了

相关实践学习
基于OpenTelemetry构建全链路追踪与监控
本实验将带领您快速上手可观测链路OpenTelemetry版,包括部署并接入多语言应用、体验TraceId自动注入至日志以实现调用链与日志的关联查询、以及切换调用链透传协议以满足全链路打通的需求。
分布式链路追踪Skywalking
Skywalking是一个基于分布式跟踪的应用程序性能监控系统,用于从服务和云原生等基础设施中收集、分析、聚合以及可视化数据,提供了一种简便的方式来清晰地观测分布式系统,具有分布式追踪、性能指标分析、应用和服务依赖分析等功能。 分布式追踪系统发展很快,种类繁多,给我们带来很大的方便。但在数据采集过程中,有时需要侵入用户代码,并且不同系统的 API 并不兼容,这就导致了如果希望切换追踪系统,往往会带来较大改动。OpenTracing为了解决不同的分布式追踪系统 API 不兼容的问题,诞生了 OpenTracing 规范。OpenTracing 是一个轻量级的标准化层,它位于应用程序/类库和追踪或日志分析程序之间。Skywalking基于OpenTracing规范开发,具有性能好,支持多语言探针,无侵入性等优势,可以帮助我们准确快速的定位到线上故障和性能瓶颈。 在本套课程中,我们将全面的讲解Skywalking相关的知识。从APM系统、分布式调用链等基础概念的学习加深对Skywalking的理解,从0开始搭建一套完整的Skywalking环境,学会对各类应用进行监控,学习Skywalking常用插件。Skywalking原理章节中,将会对Skywalking使用的agent探针技术进行深度剖析,除此之外还会对OpenTracing规范作整体上的介绍。通过对本套课程的学习,不止能学会如何使用Skywalking,还将对其底层原理和分布式架构有更深的理解。本课程由黑马程序员提供。
相关文章
|
4月前
|
Dubbo Java 应用服务中间件
微服务框架(十六)Spring Boot及Dubbo zipkin 链路追踪组件埋点
此系列文章将会描述Java框架Spring Boot、服务治理框架Dubbo、应用容器引擎Docker,及使用Spring Boot集成Dubbo、Mybatis等开源框架,其中穿插着Spring Boot中日志切面等技术的实现,然后通过gitlab-CI以持续集成为Docker镜像。 本文第一部分为调用链、OpenTracing、Zipkin和Jeager的简述;第二部分为Spring Boot及Dubbo zipkin 链路追踪组件埋点
|
Java Spring
Springboot starter开发之traceId请求日志链路追踪
能标识一次请求的完整流程,包括日志打印、响应标识等,以便于出现问题可以快速定位并解决问题。
1705 0
Springboot starter开发之traceId请求日志链路追踪
|
1月前
|
消息中间件 存储 Java
手动实现 Spring Boot 日志链路追踪:提升调试效率的利器
【8月更文挑战第8天】在复杂的分布式系统中,日志是诊断问题、追踪系统行为的重要工具。然而,随着微服务架构的普及,服务间的调用链路错综复杂,传统的日志记录方式往往难以快速定位问题源头。今天,我们将探讨如何在不依赖外部组件(如Zipkin、Sleuth等)的情况下,手动实现Spring Boot应用的日志链路追踪,让日志定位更加便捷高效。
82 1
|
1月前
|
XML Java 数据库
"揭秘!Spring Boot日志链路追踪大法,让你的调试之路畅通无阻,效率飙升,问题无所遁形!"
【8月更文挑战第11天】在微服务架构中,请求可能跨越多个服务与组件,传统日志记录难以全局追踪问题。本文以电商系统为例,介绍如何手动实现Spring Boot应用的日志链路追踪。通过为每个请求生成唯一追踪ID并贯穿全链路,在服务间传递该ID,并在日志中记录,即使日志分散也能通过ID串联。提供了实现这一机制所需的关键代码片段,包括使用过滤器设置追踪ID、业务代码中的日志记录及Logback配置。此方案显著提升了问题定位的效率,适用于基于Spring Boot构建的微服务环境。
40 4
|
SpringCloudAlibaba 算法 Java
Spring Boot项目如何实现分布式日志链路追踪
作为一名后端开发工程师,排查系统问题用得最多的手段之一就是查看系统日志,在当下主要的分布式集群环境中一般使用ELK(Elasticsearch , Logstash, Kibana)来统一收集日志,以便后续查看日志定位追踪相关问题。但是在并发情况下,大量的系统用户即多线程并发访问后端服务导致同一个请求的日志记录不再是连续相邻的,此时多个请求的日志是一起串行输出到文件中,所以我们筛选出指定请求的全部相关日志还是比较麻烦的,同时当后端异步处理功能逻辑以及微服务的下游服务调用日志追踪也有着相同的问题。
|
JavaScript 小程序 Java
Spring Boot 实现日志链路追踪,无需引入组件,让日志定位更方便!
Spring Boot 实现日志链路追踪,无需引入组件,让日志定位更方便!
|
JavaScript 小程序 Java
手动实现 SpringBoot 日志链路追踪,无需引入组件,日志定位更方便!
手动实现 SpringBoot 日志链路追踪,无需引入组件,日志定位更方便!
|
Java Spring
Spring Boot 实现日志链路追踪,无需引入组件,让日志定位更方便!
Spring Boot 实现日志链路追踪,无需引入组件,让日志定位更方便!
488 0
|
监控 Java 微服务
Springboot 整合 SpringCloud组件-ZipKin &Sleuth 服务链路追踪 (五)
Springboot 整合 SpringCloud组件-ZipKin &Sleuth 服务链路追踪 (五)
508 0
Springboot 整合 SpringCloud组件-ZipKin &Sleuth 服务链路追踪 (五)
|
存储 Java 应用服务中间件
SpringBoot 如何在日志中增加 trace id 用于链路追踪
SpringBoot 如何在日志中增加 trace id 用于链路追踪
6410 0
SpringBoot 如何在日志中增加 trace id 用于链路追踪