linux文本处理之常用正则表达式整理

简介:

^ 行首。


$行尾。


. 除换行符之外任意一个字符。


* 前面的字符重复0到多次。


.*用于匹配所有字符。


[]定义一组字符,匹配组内任一一个字符(注意!只是组内的一个!)


[^] 对字符组内的字符做取反操作(不包涵组内任一一个字符)


^[] 组内字符串开头的行。


^[^] 非组内字符串开头的行。


[a-z]  匹配一个小写字母。


[A-Z] 匹配一个大写字母。


[a-Z] 匹配一个小写和大写字母。


[0-9] 匹配一个0-9的数字。


\< 匹配单词头

\> 匹配单词尾

(单词在正则中的定义,就是以空格或者其他特殊字符做分割,连续的字符串会被当做单词。)


拓展正则:

? 前字符匹配0个或1个


+前字符匹配1个或多个


|逻辑或,例如abc|def abc或def


()小括号,用于分组,例:a(bc|de)f

意思就是abcf或adef。


s{n}  s重复了n次。


s{n,}  s至少重复了n次,甚至更多次。


s{n,m}  s至少重复了n次,最多重复m次。


posix定义的字符分类:


[:alnum:] Alphanumeric characters.

匹配范围为 [a-zA-Z0-9]

[:alpha:] Alphabetic characters.

匹配范围为 [a-zA-Z]

[:blank:] Space or tab characters.

匹配范围为 空格和TAB键

[:cntrl:] Control characters.

匹配控制键 例如 ^M 要按 ctrl+v 再按回车 才能输出

[:digit:] Numeric characters.

匹配所有数字 [0-9]

[:graph:] Characters that are both printable and visible. (A space is print-

able, but not visible, while an a is both.)

匹配所有可见字符 但不包含空格和TAB 就是你在文本文档中按键盘上能用眼睛观察到的所有符号

[:lower:] Lower-case alphabetic characters.

小写 [a-z]

[:print:] Printable characters (characters that are not control characters.)

匹配所有可见字符 包括空格和TAB

能打印到纸上的所有符号

[:punct:] Punctuation characters (characters that are not letter, digits, con-

trol characters, or space characters).

特殊输入符号 +-=)(*&^%$#@!~`|\"'{}[]:;?/>.<,

注意它不包含空格和TAB

这个集合不等于^[a-zA-Z0-9]

[:space:] Space characters (such as space, tab, and formfeed, to name a few).

[:upper:] Upper-case alphabetic characters.

大写 [A-Z]

[:xdigit:] Characters that are hexadecimal digits.

16进制数 [0-f]

使用方法:

[root@seker ~]# grep --color '[[:alnum:]]' /etc/passwd



      本文转自苏浩智 51CTO博客,原文链接:http://blog.51cto.com/suhaozhi/1909379,如需转载请自行联系原作者







相关文章
|
监控 Unix Linux
强大的文本处理工具组合:egrep、正则表达式、awk、cut、xargs
了解Linux和Unix文本处理的关键工具:egrep(扩展正则表达式搜索)、正则表达式、awk(文本分析)、cut(剪切文本)和xargs(传递参数给命令)。这些工具组合使用可高效处理、分析大量数据,尤其在日志分析和文本查询中。例如,从Web服务器日志中查找404错误,先用egrep筛选,再用awk或cut提取IP和URL,最后用xargs配合其他命令执行操作。掌握这些工具能提升工作效率。
|
机器学习/深度学习 Linux Perl
Linux文本处理三剑客之sed详解
这篇博客详细讲解了Linux中的文本处理工具sed的使用方法和常用命令。
739 9
Linux文本处理三剑客之sed详解
|
自然语言处理 前端开发 JavaScript
掌握正则表达式:前端开发中的文本处理利器
在前端开发中,处理文本是一项常见的任务。正则表达式提供了一种强大而灵活的方式来匹配、搜索和替换文本。本文将带你深入了解正则表达式的基本概念、语法规则以及在JavaScript中的应用。通过一系列实例,我们将探索如何使用正则表达式来验证表单输入、提取文本信息以及进行复杂的文本替换。无论你是前端新手还是老手,掌握正则表达式都将极大地提升你的文本处理能力。
|
存储 数据处理 Python
Python中利用正则表达式进行文本处理
【9月更文挑战第24天】本文通过深入浅出的方式,介绍如何在Python中使用正则表达式进行文本处理。我们将从基础语法开始,逐步深入到复杂匹配模式的构建,最后通过实际案例展示正则表达式在文本分析中的高效应用。文章旨在帮助读者掌握正则表达式的使用技巧,提高数据处理效率。
|
Python
Python中利用正则表达式进行文本处理的实用指南
【8月更文挑战第31天】在编程的世界里,文本处理是日常工作的一部分。就像厨师用刀切菜一样,我们用正则表达式来切割、匹配和修改字符串。这篇文章将教你如何像大厨一样使用Python中的正则表达式库,让你的文本处理技能更上一层楼。
|
Linux BI 数据处理
在Linux中,如何使用awk和sed进行文本处理?
在Linux中,如何使用awk和sed进行文本处理?
|
Linux Perl
Linux系统的文本处理
Linux系统的文本处理
|
数据挖掘 Unix Linux
探索Linux中的强大文本处理工具——dgawk
dgawk,GNU awk的增强版,是一款强大的Linux文本处理工具,擅长模式扫描和数据提取。它提供复杂文本分析、易用性、可定制脚本及高效处理大文件的能力。基本语法为`dgawk &#39;pattern { action }&#39; file`。通过打印、模式匹配、字段操作、BEGIN/END块及自定义函数等功能,用户能高效处理文本数据。掌握dgawk能提升文本分析效率,对系统管理员和数据分析师尤其有用。
|
机器学习/深度学习 Python
正则表达式(Regular Expression,常简写为regex或regexp)是一种强大的文本处理工具
【5月更文挑战第12天】正则表达式是文本处理工具,Python的re模块支持其使用。元字符如.、*、+、?等在正则表达式中具有特殊含义,用于指定匹配规则。示例中,通过正则表达式模式匹配字符串中的电子邮件地址,并使用re.findall()找出所有匹配项。
256 4