python | 正则表达式re库常用方法介绍

简介: python | 正则表达式re库常用方法介绍

image.png


还是开篇点题,本篇文章所依赖的环境为:

image.png

使用find方法查找系统库re的命令为:

image.png


这篇文章将持续介绍python正则表达式,上一节我们介绍了正则表达式的一些概念和基础正则表达式的使用,如果没有看过的小伙伴,强烈先看上一篇文章: juejin.cn/post/722125…


本篇文章,将继续讲解python正则表达式,主要是pythonre模块熟练使用,如果还对正则表达式特殊字符有问题或者不太熟悉的,建议先看python官方文档这块的描述: docs.python.org/zh-cn/3.7/l…

image.png


python re常用方法


python提供的标准模块re是与perl类似的正则表达式操作的模块,在python 1.5版本中被引入,主要是用于替换regexregsub模块,当然了,这2个模块也在python 2.5的时候被移除掉了。后面关于正则,只需要引入re模块就好了(仅限于文章开头所标注的python版本哦)。


我们之前只用过compilefindall,其实re还有很多的方法,例如:


re库中常用的方法:

  • compile: 编译为正则表达式对象。
  • findall: 查找字符串中出现的正则表达式模块,并且返回一个列表。
  • finditer: 和findall模块一样,只不过返回的是一个迭代器。
  • match: 从字符串开头匹配,成功返回匹配的第一个对象以及下标,失败则返回None
  • search: 匹配整个字符串,成功就返回匹配对象,失败就返回None

接下来,我们一起看看应用实例。



正则表达式编译还是不编译


是不是很好奇,python作为解释性语言,为什么还会有编译正则表达式呢,而且还提供了对应的方法compile


在回答这个问题之前,我们先来看个例子:


import re
# 测试字符串
testTxt = "hello pdudo juejin , 好好学习,天天向上"
# 方法1
print(re.findall('p[du]{3}o',testTxt))
# 方法2
compile = re.compile("p[du]{3}o")
print(re.findall(compile,testTxt))

上述代码中,首先定义了一个字符串testTxt,而后直接在findall中使用正则字符串 以及使用compile编译后的正则表达式。


当然了,2个属于都输出了预期的结果:

image.png

所以,问题来了:为什么需要编译正则表达式?


这是因为使用compile方法,可以将正则表达式编译成一个可复用的对象,以便这个对象在多次匹配调用的时候一次来提高性能 且 使代码更易读、易维护。


额,,,那么它是咋提高性能的呢? 我们看下底层代码了。


我们点进re模块的compile方法,发现就调用了_compile方法。

image.png


我们可以持续查看_compile来了解底层是如何操作的:

image.png

在此函数中,首先会尝试在缓存中获取已经编译过得正则表达式对象,该方法是_cahce,如果找到了,就直接返回之,否则就会检查正则表达式语法是否合规,而后使用 sre_compilecompile进行编译为对象,最后存进缓存中。


所以通过上述案例来讲,如果正则表达式需要多次使用,那么建议还是使用compile进行编译。



使用match和search匹配字符串


search方法多用于匹配字符串内容,使用search进行匹配正则,如果成功,则会返回匹配的第一个的信息,包括下标,以及匹配的字符串(可以使用group获取),如果失败,则会返回None,例如如下代码:

import re
testTxt = "hello pdudo juejin , 好好学习,天天向上,pdudo"
print(re.search('pdudo',testTxt))
print(re.search('123',testTxt))

可以运行看下:

image.png


由于匹配123没有,所以直接返回None,如果匹配成功了,则返回第一个匹配的下标(span), 以及匹配成功的值(match)。

可以将上述给优化一下,使用一个if判断之:


image.png



match,用法和search几乎一致,但是需要注意的是,它只能从字符串开头进行匹配,相当于加了一个正则特殊字符^

例如:

image.png


所以做个总结:

search方法会搜索整个字符串,并且返回第一个匹配的。

match方法会从字符串开头进行匹配,并且返回第一个匹配的。



使用 findall 和 finditer 匹配字符串


这2个方法都会返回所有的匹配项,只不过前则是以列表的方式返回的,而后则是以迭代器的方式返回的,具体可看下面这个例子:


image.png



此二者都可以使用for进行循环,迭代器和列表的区别就暂不叙述了,可以翻翻之前的文章。



总结


该篇文章,总共介绍了pythonre的5个方法,分别为: compilematchsearchfindall以及finditer


其中matchsearch都是返回匹配到的第一个字符串,但是match是从行首就开始匹配,而search是匹配整个字符串。


findallfinditer则是返回所有匹配到的字符串,前者是以列表的方法返回,后则是以迭代器的方式返回。




相关文章
|
2月前
|
测试技术 API Python
【10月更文挑战第1天】python知识点100篇系列(13)-几种方法让你的电脑一直在工作
【10月更文挑战第1天】 本文介绍了如何通过Python自动操作鼠标或键盘使电脑保持活跃状态,避免自动息屏。提供了三种方法:1) 使用PyAutoGUI,通过安装pip工具并执行`pip install pyautogui`安装,利用`moveRel()`方法定时移动鼠标;2) 使用Pymouse,通过`pip install pyuserinput`安装,采用`move()`方法移动鼠标绝对位置;3) 使用PyKeyboard,同样需安装pyuserinput,模拟键盘操作。文中推荐使用PyAutoGUI,因其功能丰富且文档详尽。
|
10天前
|
JSON 安全 API
Python调用API接口的方法
Python调用API接口的方法
47 5
WK
|
1月前
|
Python
Python中format_map()方法
在Python中,`format_map()`方法用于使用字典格式化字符串。它接受一个字典作为参数,用字典中的键值对替换字符串中的占位符。此方法适用于从字典动态获取值的场景,尤其在处理大量替换值时更为清晰和方便。
WK
74 36
|
26天前
|
Python
在Python中,可以使用内置的`re`模块来处理正则表达式
在Python中,可以使用内置的`re`模块来处理正则表达式
41 5
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
11种经典时间序列预测方法:理论、Python实现与应用
本文将总结11种经典的时间序列预测方法,并提供它们在Python中的实现示例。
77 2
11种经典时间序列预测方法:理论、Python实现与应用
|
1月前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
2月前
|
开发者 Python
Python中的魔法方法与运算符重载
在Python的奇妙世界里,魔法方法(Magic Methods)和运算符重载(Operator Overloading)是两个强大的特性,它们允许开发者以更自然、更直观的方式操作对象。本文将深入探讨这些概念,并通过实例展示如何利用它们来增强代码的可读性和表达力。
|
2月前
|
Python
Python 中常用的内置模块之`re`模块
【10月更文挑战第11天】 `re` 模块是 Python 内置的正则表达式处理工具,支持模式匹配、搜索、替换等功能。通过 `search`、`match`、`findall` 和 `sub` 等函数,结合正则表达式的元字符、分组、贪婪模式等特性,可高效完成文本处理任务。示例代码展示了基本用法,帮助快速上手。
28 1
|
6月前
|
数据库 Python
Python网络数据抓取(8):正则表达式
Python网络数据抓取(8):正则表达式
61 2
|
6月前
|
自然语言处理 JavaScript 前端开发
Python高级语法与正则表达式(二)
正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。