使用CloudLens排查iLogtail文件重复配置问题

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:重复采集配置问题。

本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:重复采集配置问题。

目标读者

数字化系统开发运维(DevOps)工程师、稳定性工程师(SRE)、可观测平台运维人员等。

背景介绍

iLogtail 是阿里云日志服务(SLS)团队自研的可观测数据采集 Agent,拥有的轻量级、高性能、自动化配置等诸多生产级别特性,可以部署于物理机、虚拟机、Kubernetes 等多种环境中来采集遥测数据。目前 iLogtail 广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景,在实战中验证了其强大的性能和稳定性。

CloudLens for SLS是日志服务推出的一款应用,帮助用户监控和管理日志服务Project、Logstore等资产,提升用户对日志服务资产的管理效率、快速了解其消耗情况。

使用场景

文件日志采集是日志采集Agent最常见的数据采集场景,iLogtail目前支持主机上文件采集以及容器场景下的文件采集。但是文件采集在实战中会遇到各种各样的问题,基于此场景,CloudLens for SLS集成了针对iLogtail的状态监控,可以实时的反馈当前iLogtail Agent的运行状况。

问题描述

iLogtail文件采集,默认情况下,同一个日志文件,只允许被一个采集配置采集,如果有两个或者两个以上的采集配置采集了同一个日志文件,那么就会报这个错误。如此设计,主要有两个原因:

  • 重复的采集会导致存储成本翻倍。

  • 用户配置采集文件的时候,通常是采用通配符的方式,在不同的采集配置中,容易导致采集文件容复。日志文件的监控和采集都是需要占用一定资源的,如果不加以限制,会导致资源占用非常大。

问题影响范围

针对同一个日志文件,只会有一个采集配置生效,其他采集配置会跳过该文件(其他文件不受影响)。

错误发现

CloudLens for SLS页面,点击报表中心下采集监控,然后查看iLogtail异常监控:

image.png

可以看到针对日志文件重复配置问题(MULTI_CONFIG_MATCH_ALARM)有一个专门的报表,里面详细展示了问题发生的时间、IP、产生重复的日志文件路径以及两个重复配置所在的project、logstore和采集配置的名字。由此客户可以清晰的看到自己的哪台机、哪个日志文件、在哪两个采集配置中重复了。仪表盘

比如这个图展示了在192.168.XX这个IP的机器上,/var/log/nginx/access.log这个文件存在重复配置问题,两个配置的详情分别是:

配置1:

  • project:xxx-test-hongkong

  • logstore:sls-lens-logtail-test

  • 采集配置名:access_log1

配置2

  • project:xxx-test-hongkong

  • logstore:sls-lens-logtail-test

  • 采集配置名:access_log2

具体场景与方案建议

不需要重复采集同一个日志文件

大多数的场景下,对日志文件的重复配置都不是预期的,通常是采用通配符的方式、或者文件层级配置的过大,导致的误重复,在这种情况下,可以采取如下措施:

由上面展示的报错详情,我们去对应的project/logstore下面分别找到对应的采集配置。

image.png

可能会导致文件配置冲突的配置有如下几种:

日志文件路径配置的层级过大

采集配置access_log1:

  • 路径:/var/log/nginx, 文件:access.log

采集配置access_log2:

  • 路径:/var/log, 文件:access.log

image.pngimage.png

此时,两个配置都会命中/var/log/nginx/access.log这个文件,因此会导致日志文件重复配置问题发生。

方案建议

此时需要细化access_log2配置的路径,比如指定/var/log/service,由此可以避免命中同样的文件。

日志文件名通配符匹配的范围过大

采集配置access_log1:

  • 路径:/var/log/nginx, 文件:access.log

采集配置access_log2:

  • 路径:/var/log/nginx, 文件:*.log

image.pngimage.png

此时,两个配置都会命中/var/log/nginx/access.log这个文件,因此会导致日志文件重复配置问题发生。

方案建议

此时需要细化access_log2的文件名配置,比如指定/var/log/nginx/error.log,由此可以避免命中同样的文件。

容器场景下过滤条件范围太大

容器场景下,还存在一个容器过滤条件的可能。

容器A:

  • label配置了test: true 和service: A

  • 采集配置access_log1,配置的Label白名单为service: A,采集路径为/var/log/nginx/access.log。

容器B:

  • label配置了test: true和service: B

  • 采集配置access_log2,配置的Label白名单为test: true,采集路径为/var/log/nginx/access.log。

image.pngimage.png

此时可以知道采集配置access_log2,命中了两个容器A和B,采集配置access_log1只命中了A容器。由于两个容器的采集文件路径配置的相同,B容器中的/var/log/nginx/access.log会同时被1和2两个配置去采集。

方案建议

在这种场景下,需要细化容器过滤条件,确保采集配置access_log1就只采集A容器,采集配置access_log2就只采集B容器,这样可以避免容器场景下的冲突。

需要重复采集同一个日志文件

方案建议

如果确实有需求,要把一个日志文件采集多次的话,可以参考操作文档,使用软连接的方案,或者添加强制采集配置,需要注意因为在客户端上对文件中的日志采集多份需要消耗多倍的CPU、内存、磁盘IO和网络IO开销,会对同机部署的其他服务性能造成额外影响,并非优化的日志采集方案。

参考资料

关于iLogtail

iLogtail作为阿里云SLS提供的可观测数据采集器,可以运行在服务器、容器、K8s、嵌入式等多种环境,支持采集数百种可观测数据(日志、监控、Trace、事件等)。目前,iLogtail已正式开源,欢迎使用及参与共建。

GitHub:https://github.com/alibaba/ilogtail

社区版版本:https://ilogtail.gitbook.io/ilogtail-docs/about/readme

企业官网:https://help.aliyun.com/document_detail/65018.html

钉钉群:iLogtail社区

image.png
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
7月前
|
关系型数据库 MySQL 测试技术
ChaosBlade常见问题之页面没有机器列表权限不能执行故障注入如何解决
ChaosBlade 是一个开源的混沌工程实验工具,旨在通过模拟各种常见的硬件、软件、网络、应用等故障,帮助开发者在测试环境中验证系统的容错和自动恢复能力。以下是关于ChaosBlade的一些常见问题合集:
|
7月前
|
SQL 分布式计算 DataWorks
maxcompute配置问题之配置回退的参数如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
|
应用服务中间件 索引 nginx
生产环境ES查询延迟排查
最近经常收到业务方配置的ES查询延迟告警,同样的请求手动在Kibana控制台执行只需几十毫秒就返回结果。受影响的整个链路情况如下,php应用程序通过部署在ES集群各节点上的nginx访问ES请求查询数据。
5424 0
|
7月前
日志 问题排查
日志 问题排查
39 1
|
监控 Java 测试技术
项目生产环境问题如何排查
在项目的生产环境中,问题的排查是非常重要的,它可以帮助我们快速定位并解决问题,保证项目的正常运行。本文将介绍一些常见的项目生产环境问题排查方法。
726 0
|
7月前
|
存储 JSON 监控
【最佳实践】使用CloudLens排查日志时间解析错误问题
本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:日志时间解析错误问题。
256 1
【最佳实践】使用CloudLens排查日志时间解析错误问题
|
7月前
|
数据采集 监控 Kubernetes
【最佳实践】使用CloudLens排查iLogtail采集配置错误问题
本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:采集配置错误问题。
431 0
【最佳实践】使用CloudLens排查iLogtail采集配置错误问题
|
运维 安全 应用服务中间件
记一次"非常诡异"的云安全组规则问题排查过程
记一次"非常诡异"的云安全组规则问题排查过程
155 0
记一次"非常诡异"的云安全组规则问题排查过程
|
7月前
|
数据采集 运维 Kubernetes
【最佳实践】使用CloudLens排查iLogtail重启问题
本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:iLogtail异常重启问题。
633 0
【最佳实践】使用CloudLens排查iLogtail重启问题
|
7月前
|
运维 监控 安全
SLS相同监控规则太多?试试告警监控模板
本文主要介绍了SLS自定义告警监控模板的使用场景以及最佳实践。
148 0
SLS相同监控规则太多?试试告警监控模板