无需重启应用,动态采集任意点位日志

简介: 现实系统往往有着较高的复杂度。借助Trace、Log、Metric三驾马车,我们的系统具备了一定的可观测性。但观测位置和信息往往是固定的,而我们所遇到的问题常常是意料之外的。这就导致我们能够定位问题的范围难以更进一步。这时,我们需要在我们想要的位置采集信息,而在日常实践中,这就意味着我们需要添加日志...

现实系统往往有着较高的复杂度。借助Trace、Log、Metric三驾马车,我们的系统具备了一定的可观测性。但观测位置和信息往往是固定的,而我们所遇到的问题常常是意料之外的。这就导致我们能够定位问题的范围难以更进一步。这时,我们需要在我们想要的位置采集信息,而在日常实践中,这就意味着我们需要添加日志逻辑并重启应用。这种做法成本较高而且会丢失现场。而借助MSE微服务治理中的日志治理功能只需要通过在控制台配置规则,便可以在不重启应用的前提下,动态采集任意点位信息。接下来通过一个假想的排查流程来简单介绍下日志治理的实践,更多关于该功能的信息可以查阅MSE相关文档

动态日志打印

假设我们有一条如图所示的简单的请求数据库的请求调用链路,当该调用链路的请求出现了异常,在定位问题的过程中,我们往往会需要知道调用的堆栈信息,进而去排查堆栈上的方法,获取这些方法的参数、返回值、异常等信息,从而帮助我们查清问题的原因。在MSE控制台中的日志治理页面,我们可以很方便地进行这些操作。

微信文章.png

在这个场景下,当发现AppB的/sql请求部分报错,但我们并没有预先编写能够记录有效信息的日志,这时我们就可以通过配置一条日志治理的规则来打印现场的堆栈信息,以获取我们需要排查的方法列表,再进一步对逐个方法进行分析。假设是/sql的请求出现了部分报错,我们选择/sql作为目标接口,如果不知道具体的接口,也可以选择全部。

image.png

由于我们只需要分析错误的请求,所以在过滤规则条件中开启异常过滤,在打印内容中选中调用堆栈,其他的内容可以根据需要选择。

image.png image.png

开启该规则后,可以看到系统帮助我们在 /home/admin/.opt/ArmsAgent/logs/mse-log-governance.log 日志文件中打印了堆栈信息。

at com.mysql.cj.jdbc.ClientPreparedStatement.executeQuery(ClientPreparedStatement.java:989)
	at com.alibaba.druid.pool.DruidPooledPreparedStatement.executeQuery(DruidPooledPreparedStatement.java:213)
	at com.alibabacloud.mse.demo.service.DruidCon.doCommond(DruidCon.java:57)
	at com.alibabacloud.mse.demo.service.DruidService.query(DruidService.java:15)
	at com.alibabacloud.mse.demo.BApplication$AController.sql(BApplication.java:89)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

截取其中一部分可以发现com.alibabacloud.mse.demo.service.DruidCon.doCommond以及com.alibabacloud.mse.demo.service.DruidService.query都是我们自身的业务逻辑方法,也是我们需要关注的方法。接下来,我们可以继续借助日志治理的能力,去获取这些方法的现场信息,比如参数、返回值、类加载器等等。

com.alibabacloud.mse.demo.service.DruidCon.doCommond为例,我们只需要增加一条新的规则,指定该自定义方法。

image.png

随后在过滤规则条件中开启异常过滤,在打印内容中选中请求参数,其他的内容可以根据需要选择。

image.png

开启该规则后,可以看到系统帮助我们在 /home/admin/.opt/ArmsAgent/logs/mse-log-governance.log 日志文件中打印了JSON格式的日志信息,包含了我们所勾选的参数信息。

{
  "appName": "app-b",
  "attributes": {
    "mse.tag": "base",
    "mse.param": "{\"sql\":\"select * from log_demo where id = ?\",\"id\":\"1\"}",
    "mse.app.tag": "base",
    "mse.service.type": "CUSTOM"
  },
  "endTime": 1665974434728,
  "events": {},
  "ip": "10.0.0.166",
  "name": "com.alibabacloud.mse.demo.service.DruidCon:doCommond(java.lang.String,int)",
  "needRecord": true,
  "parentId": -4669550334584716586,
  "ruleIdSet": [
    288
  ],
  "spanId": -8047278153886744300,
  "startTime": 1665974434725,
  "statusCode": 2,
  "traceId": "ea1a00009d16659744347231724d0001"
}

以上只是简单的例子,但是能够由此发现,MSE为服务治理的日志治理功能能够帮助我们在Java方法任意点位收集信息,将排查工作变成零代码且动态的,由于不需要在测试环境中重复增加日志代码并不断重启应用,能够大大减小某些难以在测试环境中复现的问题的排查难度。

日志采集

在启用了日志治理功能之后,我们的日志会被自动滚动保存至本地,为了满足存储或是进一步分析的需求,我们可以将这些日志采集到日志服务系统中。这里以SLS的Logtail采集方式为例。

配置Logtail采集日志

在通过组件或是其他方式在我们的集群或是实例中安装了Logtail之后,可以通过日志服务SLS控制台来完成日志采集的配置,这部分内容可以详见SLS日志服务的相关文档。我们只关注其中的一些配置,首先是Logtail配置,在K8s集群场景下,我们所需要的配置如下:

  • 日志路径为/home/admin/.opt/ArmsAgent/logs/mse-log-governance.log(使用OneAgent时,日志路径为/home/admin/.opt/ArmsAgent/plugins/ArmsAgent/logs/mse-log-governance.log)image.png

  • 打开是否为Docker文件的开关。

  • 打开是否部署于K8s的开关。

  • 模式选择JSON模式。

其次是查询分析配置,在控制台配置流程中,我们可以选择自动生成索引或是后续在SLS控制台中自行增加索引,为了方便我们的分析,statusCode、ruleIdSet、name、appName等字段建议增加索引。

查看日志

稍等片刻后便可以在SLS控制台查看收集的日志,并借助查询分析功能处理日志。

image.png

小结

借助日志治理的现有能力,我们能够在不重启应用的前提下,动态采集任意点位信息,同时由于日志治理在采集信息时会引入链路信息,在分析复杂调用问题时能够起到很好的效果。目前日志治理采集的信息会以JSON格式的形式滚动存储在本地,我们可以通过借助SLS这类日志服务系统提供的采集方法采集并进行进一步的查询和分析,后续日志治理也会不断完善优化,采集的信息组织完全兼容OpenTelemetry标准,并进一步提供完善的符合标准的上报方式。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
目录
相关文章
|
3月前
|
SQL 人工智能 监控
SLS Copilot 实践:基于 SLS 灵活构建 LLM 应用的数据基础设施
本文将分享我们在构建 SLS SQL Copilot 过程中的工程实践,展示如何基于阿里云 SLS 打造一套完整的 LLM 应用数据基础设施。
774 60
|
5月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
|
6月前
|
存储 运维 开发工具
警惕日志采集失败的 6 大经典雷区:从本地管理反模式到 LoongCollector 标准实践
本文总结了日志管理中的六大反模式及优化建议,涵盖日志轮转、存储选择、并发写入等常见问题,帮助提升日志采集的完整性与系统可观测性,适用于运维及开发人员优化日志管理策略。
248 5
|
2月前
|
数据采集 缓存 大数据
【赵渝强老师】大数据日志采集引擎Flume
Apache Flume 是一个分布式、可靠的数据采集系统,支持从多种数据源收集日志信息,并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成,通过Event封装数据,保障高效与可靠传输。
235 1
|
3月前
|
存储 Kubernetes 监控
Kubernetes日志管理:使用Loki进行日志采集
通过以上步骤,在Kubernetes环境下利用LoKi进行有效率且易于管理地logs采集变成可能。此外,在实施过程中需要注意版本兼容性问题,并跟进社区最新动态以获取功能更新或安全补丁信息。
301 16
|
4月前
|
存储 缓存 Apache
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
A+流量分析平台是阿里集团统一的全域流量数据分析平台,致力于通过埋点、采集、计算构建流量数据闭环,助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战,平台采用Flink+Paimon+StarRocks技术方案,实现高吞吐写入与秒级查询,优化存储成本与扩展性,提升日志分析效率。
553 1
|
5月前
|
JSON 安全 网络安全
LoongCollector 安全日志接入实践:企业级防火墙场景的日志标准化采集
LoonCollector 是一款轻量级日志采集工具,支持多源安全日志的标准化接入,兼容 Syslog、JSON、CSV 等格式,适用于长亭 WAF、FortiGate、Palo Alto 等主流安全设备。通过灵活配置解析规则,LoonCollector 可将原始日志转换为结构化数据,写入阿里云 SLS 日志库,便于后续查询分析、威胁检测与合规审计,有效降低数据孤岛问题,提升企业安全运营效率。
|
5月前
|
存储
WGLOG日志管理系统可以采集网络设备的日志吗
WGLOG日志审计系统提供开放接口,支持外部获取日志内容后发送至该接口,实现日志的存储与分析。详情请访问:https://www.wgstart.com/wglog/docs9.html
|
6月前
|
监控 安全 Linux
AWK在网络安全中的高效应用:从日志分析到威胁狩猎
本文深入探讨AWK在网络安全中的高效应用,涵盖日志分析、威胁狩猎及应急响应等场景。通过实战技巧,助力安全工程师将日志分析效率提升3倍以上,构建轻量级监控方案。文章详解AWK核心语法与网络安全专用技巧,如时间范围分析、多条件过滤和数据脱敏,并提供性能优化与工具集成方案。掌握AWK,让安全工作事半功倍!
221 0