使用Logtail收集日志时,会遇到诸如正则解析失败,文件路径不正确,流量超过Shard服务能力等错误,日志服务提供诊断功能,支持自主诊断Logtail日志收集错误。
诊断步骤
1. 进入错误诊断页面
选择指定Project后,进入Logstore列表,在列表的[backcolor=transparent]日志收集模式列中单击[backcolor=transparent]诊断。
2. 查看日志收集错误
进入诊断页面后,即可查看指定Logstore对应的所有Logtail收集日志错误列表。
3. 查询指定机器收集错误
在错误查询页面中,可以通过在输入框输入指定机器IP地址,显示指定机器的所有收集错误。其中Logtail上报错误信息的时间间隔为5分钟。
处理问题完毕后,根据错误统计时间可以查看业务恢复正常后是否仍有报错。历史报错在过期前仍可显示,您可以忽略这部分报错,仅确认在问题处理完毕的时间点之后是否有新的错误即可。
诊断参考
以下为Logtail错误类型及处理方式,您可以在诊断收集错误时根据报错来查询处理。如有其它问题,请提工单。
错误类型 | 错误说明 | 处理方式 |
LOGFILE_PERMINSSION_ALARM | Logtail无权限读取指定文件。 | 检查服务器Logtail的启动账户,建议以root方式启动。 |
SPLIT_LOG_FAIL_ALARM | 行首正则与日志行首匹配失败,无法对日志做分行。 | 检查行首正则正确性,如果是单行日志可以配置为.*。 |
MULTI_CONFIG_MATCH_ALARM | 同一个文件,只能被一个Logtail的配置收集,不支持同时被多个logtail配置收集。 | 检查一个文件是否在多个配置中被收集,删除多余的配置。 |
REGEX_MATCH_ALARM | 正则表达式解析模式下,日志内容和正表达式不匹配。 | 复制错误内容中的日志样例重新尝试匹配,并生成新的新的解析正则式。 |
PARSE_LOG_FAIL_ALARM | JSON、分隔符等解析模式下,由于日志格式不符合定义而解析失败。 | 请单击错误查看匹配失败的详细报错。 |
CATEGORY_CONFIG_ALARM | Logtail采集配置不合法。 | 常见的错误为正则表达式提取文件路径作为topic失败,其它错误请提工单解决。 |
LOGTAIL_CRASH_ALARM | Logtail因超过服务器资源使用上限而崩溃。 | 请参考Logtail启动参数配置修改CPU、内存使用上限,如有疑问请提工单。 |
REGISTER_INOTIFY_FAIL_ALARM | Linux下注册日志监听失败,可能由于没有文件夹权限或文件夹被删除 | 检查logtail是否有权限访问该文件夹或该文件夹是否被删除 |
DISCARD_DATA_ALARM | 配置Logtail使用的CPU资源不够或网络发送流控导致。 | 请参考Logtail启动参数配置修改CPU使用上限或网络发送并发限制,如有疑问请提工单解决。 |
SEND_DATA_FAIL_ALARM | (1)主账号未创建任何AcessKey;(2)Logtail客户端机器与日志服务服务端无法连通或者网络链路质量较差;(3)服务端写入配额不足。 | (1)主账号登录AcessKey控制台 创建AcessKey;(2)检查本地配置文件/usr/local/ilogtail/ilogtail_config.json,执行curl <服务地址>,查看是否有内容返回;(3)为Logstore增加Shard数目,以支持更大数据量的写入。 |
PARSE_TIME_FAIL_ALARM | Logtail根据时间解析表达式解析time字段失败。 | 请根据日志时间配置正确的时间解析表达式。 |
REGISTER_INOTIFY_FAIL_ALARM | Logtail为日志目录注册inotify watcher失败。 | 请检查目录是否存在以及目录权限设置。 |
SEND_QUOTA_EXCEED_ALARM | 日志写入流量超出限制。 | 在控制台进行分区(Shard)扩容。 |
READ_LOG_DELAY_ALARM | 日志采集进度落后于日志产生进度,一般是由于配置Logtail使用的CPU资源不够或是网络发送流控导致。 | 请参考Logtail启动参数配置修改CPU使用上限或网络发送并发限制,如有疑问请提工单。 |
DROP_LOG_ALARM | 日志采集进度落后于日志产生进度,且未处理的日志轮转超过20个,一般是由于配置Logtail使用的CPU资源不够或是网络发送流控导致。 | 请参考Logtail启动参数配置修改CPU使用上限或网络发送并发限制,如有疑问请提工单。 |
LOGDIR_PERMINSSION_ALARM | 没有日志监控目录读取权限。 | 请检查日志监控目录是否存在,若存在请检查目录权限设置。 |
ENCODING_CONVERT_ALARM | 编码转换失败。 | 请检查日志编码格式配置是否与日志编码格式一致。 |
OUTDATED_LOG_ALAR | 过期的日志,日志时间落后超过12小时。可能原因:日志解析进度落后超过12小时、用户自定义时间字段配置错误或日志记录程序时间输出异常。 | 首先查看是否存在READ_LOG_DELAY_ALARM,如存在按照READ_LOG_DELAY_ALARM处理方式解决;若不存在请检查时间字段配置;若时间字段配置正常请检查日志记录程序时间输出是否正常;如有疑问请提工单。 |
注:如需查看所有解析失败而丢弃的完整日志行,请登录机器查看/usr/local/ilogtail/ilogtail.LOG。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。