首页 > > 网络编程 > 其它 >

详解 Python3 正则表达式（二）

2018-06-18 02:38:12来源：未知阅读 ()

上一篇：详解 Python3 正则表达式（一）

本文翻译自：https://docs.python.org/3.4/howto/regex.html

博主对此做了一些批注和修改 ^_^

使用正则表达式

现在我们开始来写一些简单的正则表达式吧。Python 通过 re 模块为正则表达式引擎提供一个接口，同时允许你将正则表达式编译成模式对象，并用它们来进行匹配。

批注：re 模块是使用 C 语言编写，所以效率比你用普通的字符串方法要高得多；将正则表达式进行编译（compile）也是为了进一步提高效率；后边我们会经常提到 “模式”，指的就是正则表达式被编译成的模式对象。

编译正则表达式

正则表达式被编译为模式对象，该对象拥有各种方法供你操作字符串，如查找模式匹配或者执行字符串替换。

re.compile() 也可以接受 flags 参数，用于开启各种特殊功能和语法变化，我们会在后边一一介绍。

现在我们先来看个简单的例子：

正则表达式作为一个字符串参数传给 re.compile() 。由于正则表达式并不是 Python 的核心部分，因此没有为它提供特殊的语法支持，所以正则表达式只能以字符串的形式表示。有些应用根本就不需要使用到正则表达式，所以 Python 社区的小伙伴们认为没有必要将其纳入 Python 的核心。相反，re 模块仅仅是作为 C 扩展模块包含在 Python 中，就像 socket 模块和 zlib 模块。

使用字符串来表示正则表达式保持了 Python 简洁的一贯风格，但也因此有一些负面影响，下边我们来谈一谈。

麻烦的反斜杠

上一篇中我们已经提到了，正则表达式使用 '\' 字符来使得一些普通的字符拥有特殊的能力（例如 \d 表示匹配任何十进制数字），或者剥夺一些特殊字符的能力（例如 \[ 表示匹配左括号 '['）。这会跟 Python 字符串中实现相同功能的字符发生冲突。

批注：挺拗口，接着看例子你就懂了~

现在的情况是，你需要在 LaTeX 文件中使用正则表达式匹配字符串 '\section' 。因为反斜杠作为需要匹配的特殊字符，所以你需要在它前边多加一个反斜杠来剥夺它的特殊功能。所以我们会把正则表达式的字符写成 '\\section' 。

但不要忘了，Python 在字符串同样使用反斜杠来表示特殊意义。因此，如果我们想将 '\\section' 完整地传给 re.compile()，我们需要再次添加两个反斜杠 ......

匹配字符	匹配阶段
\section	需要匹配的字符串
\\section	正则表达式使用 '\\' 表示匹配字符 '\'
\\\\section	不巧，Python 字符串也使用 '\\' 表示字符 '\'

简而言之，为了匹配反斜杠这个字符，我们需要在字符串中使用四个反斜杠才行。所以，在正则表达式中频繁地使用反斜杠，会造成反斜杠风暴，进而导致你的字符串极其难懂。

解决方法是使用 Python 的原始字符串来表示正则表达式（就是在字符串前边加上 r，大家还记得吧 ... ）:

正则字符串	原始字符串
“ab*”	r"ab*"
"\\\\section"	r"\\section"
"\\w+\\s+\\1"	r"\w+\s+\1"

批注：强烈建议使用原始字符串来表达正则表达式。

实现匹配

当你将正则表达式编译之后，你就得到一个模式对象。那你拿它可以做什么呢？模式对象拥有很多方法和属性，我们下边列举最重要的几个来讲：

方法	功能
match()	判断一个正则表达式是否从开始处匹配一个字符串
search()	遍历字符串，找到正则表达式匹配的第一个位置
findall()	遍历字符串，找到正则表达式匹配的所有位置，并以列表的形式返回
finditer()	遍历字符串，找到正则表达式匹配的所有位置，并以迭代器的形式返回

如果没有找到任何匹配的话，match() 和 search() 会返回 None；如果匹配成功，则会返回一个匹配对象（match object），包含所有匹配的信息：例如从哪儿开始，到哪儿结束，匹配的子字符串等等。

接下来我们一步步讲解：

现在，你可以尝试使用正则表达式 [a-z]+ 去匹配各种字符串。

例如：

因为 + 表示匹配一次或者多次，所以空字符串不能被匹配。因此，match() 返回 None。

我们再尝试一个可以匹配的字符串：

在这个例子中，match() 返回一个匹配对象，我们将其存放在变量 m 中，以便日后使用。

接下来我们来看看匹配对象里边有哪些信息吧。匹配对象包含了很多方法和属性，以下几个是最重要的：

方法	功能
group()	返回匹配的字符串
start()	返回匹配的开始位置
end()	返回匹配的结束位置
span()	返回一个元组表示匹配位置（开始，结束）

大家看：

由于 match() 只检查正则表达式是否在字符串的起始位置匹配，所以 start() 总是返回 0 。

然而，search() 方法可就不一样咯：

在实际应用中，最常用的方法是将匹配对象存放在一个局部变量中，并检查其返回值是否为 None 。

形式通常如下：

p = re.compile(...)
m = p.match('String goes here')
if m:
    print('Match found：', m.group())
else:
    print('No match')

有两个方法可以返回所有的匹配结果，一个是 findall()，一个是 finditer() 。

findall() 返回的是一个列表：

findall() 需要在返回前先创建一个列表，而 finditer() 则是将匹配对象作为一个迭代器返回：

批注：如果列表很大，那么返回迭代器的效率要高很多。

(本文完)

下一篇：详解 Python3 正则表达式（三）

如果你喜欢这篇文章，请通过下方「评论」给我鼓励哦 ^_^

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：python2.7入门---CGI编程&文件上传&文件下载

下一篇：Python程序里的注释和#号

python3基础之“术语表（2）” 2019-08-13
python3 之字符串编码小结（Unicode、utf-8、gbk、gb2312等 2019-08-13
Python3安装impala 2019-08-13
python学习-53 正则表达式 2019-08-13
python3 enum模块的应用 2019-08-13

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签