开发者社区> 问答> 正文

使用Logtail收集日志时,如何诊断错误查询?


使用Logtail收集日志时,会遇到诸如正则解析失败,文件路径不正确,流量超过Shard服务能力等错误,日志服务提供诊断功能,支持自主诊断Logtail日志收集错误。

诊断步骤



1. 进入错误诊断页面


选择指定Project后,进入Logstore列表,在列表的[backcolor=transparent]日志收集模式列中单击[backcolor=transparent]诊断。


2. 查看日志收集错误


进入诊断页面后,即可查看指定Logstore对应的所有Logtail收集日志错误列表。


3. 查询指定机器收集错误


在错误查询页面中,可以通过在输入框输入指定机器IP地址,显示指定机器的所有收集错误。其中Logtail上报错误信息的时间间隔为5分钟。
处理问题完毕后,根据错误统计时间可以查看业务恢复正常后是否仍有报错。历史报错在过期前仍可显示,您可以忽略这部分报错,仅确认在问题处理完毕的时间点之后是否有新的错误即可。

诊断参考


以下为Logtail错误类型及处理方式,您可以在诊断收集错误时根据报错来查询处理。如有其它问题,请提工单。

错误类型错误说明处理方式
LOGFILE_PERMINSSION_ALARMLogtail无权限读取指定文件。检查服务器Logtail的启动账户,建议以root方式启动。
SPLIT_LOG_FAIL_ALARM行首正则与日志行首匹配失败,无法对日志做分行。检查行首正则正确性,如果是单行日志可以配置为.*。
MULTI_CONFIG_MATCH_ALARM同一个文件,只能被一个Logtail的配置收集,不支持同时被多个logtail配置收集。检查一个文件是否在多个配置中被收集,删除多余的配置。
REGEX_MATCH_ALARM正则表达式解析模式下,日志内容和正表达式不匹配。复制错误内容中的日志样例重新尝试匹配,并生成新的新的解析正则式。
PARSE_LOG_FAIL_ALARMJSON、分隔符等解析模式下,由于日志格式不符合定义而解析失败。请单击错误查看匹配失败的详细报错。
CATEGORY_CONFIG_ALARMLogtail采集配置不合法。常见的错误为正则表达式提取文件路径作为topic失败,其它错误请提工单解决。
LOGTAIL_CRASH_ALARMLogtail因超过服务器资源使用上限而崩溃。请参考Logtail启动参数配置修改CPU、内存使用上限,如有疑问请提工单。
REGISTER_INOTIFY_FAIL_ALARMLinux下注册日志监听失败,可能由于没有文件夹权限或文件夹被删除检查logtail是否有权限访问该文件夹或该文件夹是否被删除
DISCARD_DATA_ALARM配置Logtail使用的CPU资源不够或网络发送流控导致。请参考Logtail启动参数配置修改CPU使用上限或网络发送并发限制,如有疑问请提工单解决。
SEND_DATA_FAIL_ALARM(1)主账号未创建任何AcessKey;(2)Logtail客户端机器与日志服务服务端无法连通或者网络链路质量较差;(3)服务端写入配额不足。(1)主账号登录AcessKey控制台 创建AcessKey;(2)检查本地配置文件/usr/local/ilogtail/ilogtail_config.json,执行curl <服务地址>,查看是否有内容返回;(3)为Logstore增加Shard数目,以支持更大数据量的写入。
PARSE_TIME_FAIL_ALARMLogtail根据时间解析表达式解析time字段失败。请根据日志时间配置正确的时间解析表达式。
REGISTER_INOTIFY_FAIL_ALARMLogtail为日志目录注册inotify watcher失败。请检查目录是否存在以及目录权限设置。
SEND_QUOTA_EXCEED_ALARM日志写入流量超出限制。在控制台进行分区(Shard)扩容
READ_LOG_DELAY_ALARM日志采集进度落后于日志产生进度,一般是由于配置Logtail使用的CPU资源不够或是网络发送流控导致。请参考Logtail启动参数配置修改CPU使用上限或网络发送并发限制,如有疑问请提工单。
DROP_LOG_ALARM日志采集进度落后于日志产生进度,且未处理的日志轮转超过20个,一般是由于配置Logtail使用的CPU资源不够或是网络发送流控导致。请参考Logtail启动参数配置修改CPU使用上限或网络发送并发限制,如有疑问请提工单。
LOGDIR_PERMINSSION_ALARM没有日志监控目录读取权限。请检查日志监控目录是否存在,若存在请检查目录权限设置。
ENCODING_CONVERT_ALARM编码转换失败。请检查日志编码格式配置是否与日志编码格式一致。
OUTDATED_LOG_ALAR过期的日志,日志时间落后超过12小时。可能原因:日志解析进度落后超过12小时、用户自定义时间字段配置错误或日志记录程序时间输出异常。首先查看是否存在READ_LOG_DELAY_ALARM,如存在按照READ_LOG_DELAY_ALARM处理方式解决;若不存在请检查时间字段配置;若时间字段配置正常请检查日志记录程序时间输出是否正常;如有疑问请提工单。
[tr=rgb(239, 251, 255)][td]STAT_LIMIT_ALARM 日志采集配置目录中的文件数超限检查采集配置目录是否有较多的文件和子目录,合理设置监控的根目录和目录最大监控深度。

注:如需查看所有解析失败而丢弃的完整日志行,请登录机器查看/usr/local/ilogtail/ilogtail.LOG。

展开
收起
轩墨 2017-10-20 15:43:01 3328 0
0 条回答
写回答
取消 提交回答
问答排行榜
最热
最新

相关电子书

更多
PostgresChina2018_赖思超_PostgreSQL10_hash索引的WAL日志修改版final 立即下载
Kubernetes下日志实时采集、存储与计算实践 立即下载
日志数据采集与分析对接 立即下载