写正则不再是噩梦：SLS数据加工GROK使用梳理-阿里云开发者社区

写正则不再是噩梦：SLS数据加工GROK使用梳理

2022-06-23 1350

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： GROK是一种采用组合多个预定义的正则表达式，用来匹配分割文本并映射到关键字的工具。可以将文本格式的字符串，转换成为具体的结构化的数据。

背景

由于正则表达式较为复杂，推荐您优先使用GROK函数。GROK是一种采用组合多个预定义的正则表达式，用来匹配分割文本并映射到关键字的工具。可以将文本格式的字符串，转换成为具体的结构化的数据。您可以在 GROK 里预定义好命名正则表达式，在稍后(grok参数或者其他正则表达式里)引用它。

GROK适用于syslog logs，apache和一些其他的webserver logs，以及mysql logs。grok有很多定义好pattern，当然也可以自己定义。

阿里云日志服务介绍

日志服务（Log Service，简称SLS）是针对日志类数据的一站式服务，在阿里巴巴集团经历大量大数据场景锤炼而成。您无需开发就能快捷完成日志数据采集、消费、投递以及查询分析等功能，提升运维、运营效率，建立DT时代海量日志处理能力。

数据加工服务是阿里云SLS推出的面向日志ETL处理的服务，主要解决数据加工过程中转换、过滤、分发、富化等场景。

SLS数据加工DSL是专门为日志实时行处理定制的一套语言（Python语法子集）,本文档的目的也是让快速掌握该DSL，解决日志分析的问题。

数据加工中经常需要用到正则表达式从非结构化数据提取字段，所以可以在 GROK 里预定义好命名正则表达式，在GROK参数或者其他正则表达式里引用它。SLS数据加工提供了70+常用的GROK，例如身份证号、邮箱、MAC地址、IPV4、IPV6、时间解析、URL解析等，直接可以使用，具体可参见GROK模式参考。当然，GROK还可以进一步自定义扩展，这里主要介绍GROK函数。

GROK的使用

GROK语法

%{SYNTAX:SEMANTIC}

SYNTAX表示grok定义好的pattern，SEMANTIC表示自定义的字段。

例如192.168.0.100

用%{IP:client}可以将IP定义为client

假如现在某webserver log中的内容为以下格式：
55.3.244.1 GET /index.html 15824 0.043

我们完全可以利用grok将这些信息定义成以下字段

%{IP:client}%{WORD:method}%{URIPATHPARAM:request}%{NUMBER:bytes}%{NUMBER:duration}

grok过滤后得到的信息成了以下这样子：

client: 55.3.244.1

method: GET

request: /index.html

bytes: 15824

duration: 0.043

如何自定义Pattern

语法：(?the pattern here)

假如有以下内容“begin 123.456 end

我们希望将123.456定义成request_time字段，可以向下面这样写这个正则表达式

\s+(?\d+(?:\.\d+)?)\s+

解释：

\s：匹配任何不可见字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。+表示匹配次数为1次或者多次

(? )：这个是grok语法,request_time表示要将捕获的字符定义成的字段名

\d+：匹配一个或者多个数字

(?:\.\d+)：为正则表达式，

(?: pattern):非获取匹配，匹配pattern但不获取匹配结果，不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。

\.\d+：表示点后面跟一个或者多个数字，(?:\.\d+)?表示点后面跟一个或多个数字这种情况出现0次或者多次，如果为0次，则request_time为一个整数。所以匹配到的结果可能为123.456或者123或者123.4.5.6，这些都满足条件

GROK函数格式

grok(pattern, escape=False, extend=None)

参数说明

参数名称	参数类型	是否必填	说明
pattern	String	是	以上所述GROK语法。也可以参见GROK模式参考。
escape	Bool	否	是否将其他非GROK pattern中的正则相关特殊字符做转义，默认不转义。
extend	Dict	否	用户自定义的GROK表达式。

GROK有两种分组模式：

捕获分组模式

GROK模式中部分是自带命名分组捕获的，所以针对这种模式只能使用%{SYNTAX}方式的语法。此类模式常见于语句解析。

"%{SYSLOGBASE}"

"%{COMMONAPACHELOG}"

"%{COMBINEDAPACHELOG}"

"%{HTTPD20_ERRORLOG}"

"%{HTTPD24_ERRORLOG}"

"%{HTTPD_ERRORLOG}"

...

非捕获分组模式

"%{INT}"

"%{YEAR}"

原始日志截取

content: Nov 1 21:14:23 scorn kernel: pid 84558 (expect), uid 30206: exited on signal 3

加工规则

e_regex('content',grok(r'%{SYSLOGBASE} pid %{NUMBER:pid} \(%{WORD:program}\), uid %{NUMBER:uid}: exited on signal %{NUMBER:signal}'))

因为加工规则中包含了正则特殊字符括号()，如果您不使用转义符，则添加escape=True参数即可，如下所示：

e_regex('content',grok('%{SYSLOGBASE} pid %{NUMBER:pid} (%{WORD:program}), uid %{NUMBER:uid}: exited on signal %{NUMBER:signal}', escape=True))

加工结果

场景六用户自定义GROK表达式。

原始日志截取

content: Beijing-1104,gary 25 "never quit"

加工规则

e_regex('content',grok('%{ID:user_id},%{WORD:name} %{INT:age} %{QUOTEDSTRING:motto}',extend={'ID': '%{WORD}-%{INT}'}))

加工结果

场景七匹配JSON数据。

原始日志截取

content: 2019-10-29 16:41:39,218 - INFO: owt.AudioFrameConstructor - McsStats: {"event":"mediaStats","connectionId":"331578616547393100","durationMs":"5000","rtpPackets":"250","rtpBytes":"36945","nackPackets":"0","nackBytes":"0","rtpIntervalAvg":"20","rtpIntervalMax":"104","rtpIntervalVar":"4","rtcpRecvPackets":"0","rtcpRecvBytes":"0","rtcpSendPackets":"1","rtcpSendBytes":"32","frame":"250","frameBytes":"36945","timeStampOutOfOrder":"0","frameIntervalAvg":"20","frameIntervalMax":"104","frameIntervalVar":"4","timeStampIntervalAvg":"960","timeStampIntervalMax":"960","timeStampIntervalVar":"0"}

加工规则

e_regex('content',grok('%{EXTRACTJSON}'))

加工结果

场景八解析标准w3c格式日志。

原始日志截取

content: 2018-12-26 00:00:00 W3SVC2 application001 192.168.0.0 HEAD / - 8000 - 10.0.0.0 HTTP/1.0 - - - - 404 0 64 0 19 0

加工规则

w3c中没有的字段使用了短划线（-）替代，在GROK中也使用短划线（-）去匹配这些字段。

e_regex("content",grok('%{DATE:data} %{TIME:time} %{WORD:s_sitename} %{WORD:s_computername} %{IP:s_ip} %{WORD:cs_method} %{NOTSPACE:cs_uri_stem} - %{NUMBER:s_port} - %{IP:c_ip} %{NOTSPACE:cs_version} - - - - %{NUMBER:sc_status} %{NUMBER:sc_substatus} %{NUMBER:sc_win32_status} %{NUMBER:sc_bytes} %{NUMBER:cs_bytes} %{NUMBER:time_taken}'))

加工结果

其他参考

SLS目前暂支持73个GROK，GROK模式参考 https://help.aliyun.com/document_detail/129387.htm#concept-1597616

写正则不再是噩梦：SLS数据加工GROK使用梳理

背景

阿里云日志服务介绍