正则表达式是一种匹配字符串的规则,我们可以通过正则表达式去搜索指定规则的字符串。
如果你有需要匹配字符串,正则是一种选择,特别是匹配规则比较复杂的情况下。正则表达式最常用的地方是爬虫,在爬取网页时,指定你需要爬取的内容。
python中的模块re提供了解析正则匹配的规则。
因为正则规则比较不容易理解,理解了规则也会很快忘记,所以建议是了解常用的使用,有具体的匹配需求再去了解是否有规则可以满足你的要求。
1. 正则的四种规则
所以我们先通过一个简单的例子来了解下re正则匹配
import re
pattern = "\w+"
ret = re.match(pattern, "a12323abc")
print(ret)
# <_sre.SRE_Match object; span=(0, 9), match='a12323abc'>
正则规则可以分四种:
-
- 单个字符, 如上面例子中
\w
表示普通字符(数字、字母或下划线);其他如下:
- 单个字符, 如上面例子中
-
- 数量, 如上面例子中
+
表示重复一次或者多次,?
表示重复0次或者一次
- 数量, 如上面例子中
-
- 字符组,就是一组字符,用[]包含起来,如果在一个字符组里枚举所有字符,字符组里的任意一个字符和"待匹配字符"相同都视为可以匹配
-
- 位置: ^表示匹配开头,$表示匹配结尾
上面例子中"\w+"
表示只要是一个或者多个普通字符都算匹配,如何匹配re.match返回非None,否则返回None
我们在看一个匹配邮箱的里子
# @前面是一个或者多个字符,@后面是一个或者多个字符, 接着最后.com
pattern = "\w+@\w+\.com"
ret = re.match(pattern, "yuyq@163.com")
print(ret)
# <_sre.SRE_Match object; span=(0, 12), match='yuyq@163.com'>
pattern = "\w+@\w+\.com"
ret = re.match(pattern, "yuyqx163.com")
print(ret)
# None
pattern = "\w+@(\w+\.)?\w+\.com"
ret = re.match(pattern, "hello123@1xheuet..edu.com")
print(ret)
# None
从上面例子需要知道:
- 由于.是正则里的特殊字符,需要转义
\.
(\w+\.)?
中?表示0或者多个,也可以理解有也可以没有也可以,()
表示包括的字符是一起的,也就是说 abc.ax. 类似这种是匹配的。上面最后一个例子中多个一个.不符合规则
2. match和search的区别
re除了提供match,还提供search,findall,sub,split等函数;其中match和search,findall提供搜索匹配,sub提供替换,split提供分割。
那match和search有什么区别?
pattern = "(acb)+"
ret = re.match(pattern, "dacbbacb1b")
print(ret)
# None
ret = re.search(pattern, "dacbbacb1b")
print(ret)
# <_sre.SRE_Match object; span=(1, 4), match='acb'>
ret = re.findall(pattern, "dacbbacb1b")
print(ret)
# ['acb', 'acb']
上面的例子,待匹配的字符串中明明有acb为什么match没有匹配成功,原因是:
- re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None
- re.search匹配整个字符串,直到找到一个匹配
- 而re.findall 是匹配所有
我们来看看sub和split的例子
import re
# ":| "表示用:或者空格匹配,|表示只要匹配其中一个规则就可以
ret = re.split(r":| ","info:xiaoZhang 33 shandong")
print(ret)
# ['info', 'xiaoZhang', '33', 'shandong']
import re
# 如果"python = 997"中的1个或者多个数字(/d)就是997,使用前面的xx替换
ret = re.sub(r"\d+", "xx", "python = 997")
print(ret)
# python = xx
3. 更多的例子
我们来看几个个复杂的例子
# 匹配1-100
pattern = "[1-9]?\d$|100"
ret = re.match(pattern, "102")
print(ret)
# None
规则解说:
- [1-9]?表示0或者1个0到9的其中一个数字,
- 然后\d$是以一个数字结尾;$表示结尾
- |100也是匹配的
pattern = "[a-zA-Z0-9_]{8,20}"
ret = re.match(pattern, "000000000.")
print(ret)
# None
规则解说:
- [a-zA-Z0-9_] 必须是大写字母,小写字母,数字和下划线例的字符
- {8,20}:数量是8到20个
4. 正则的贪婪与⾮贪婪
正则还有一个匹配原则是最多匹配(贪婪)和最少匹配(⾮贪婪)
- 正则表达式默认为贪婪匹配,也就是尽可能多的向后匹配字符,比如 {n,m} 表示匹配前面的内容出现 n 到 m 次(n 小于 m),在贪婪模式下,首先以匹配 m 次为目标
- 而在非贪婪模式是尽可能少的向后匹配内容,也就是说匹配 n 次即可
贪婪模式转换为非贪婪模式的方法很简单,在元字符后添加?即可实现
pattern = "b+"
ret = re.match(pattern, "bbacb1b")
print(ret.group())
# bb
pattern = "b+?"
ret = re.match(pattern, "bbacb1b")
print(ret.group())
# b
从上面例子可以:
- 默认是贪婪模式,匹配到最多;规则是一个或者多个b,有多少个b就有输出多少个b
- 加?是非贪婪模式,规则是一个或者多个b,就匹配一个b
- 通过group()输出匹配的字符串
5. 后记
正则规则通常很容易忘记,这里提供一个比较清晰的规则备忘,需要使用的可以查看
总之,记得有re正则这个字符匹配工具,遇到合适场景就可以亮出它。希望对你有帮助!