首页 > > 网络编程 > 其它 >

day 24 内置模块re

2019-01-03 09:57:53来源：博客园阅读 ()

1.正则表达式,匹配字符串

正则表达式是对字符串操作的一种逻辑公式.我们一般使用正则表达式对字符串镜子那个匹配和过滤,使用正则的优缺点:

优点: 灵活,功能性强,逻辑性强

缺点: 上手难.一旦上手,会爱上这个东西

工具:各大文本编辑器一般都有增则匹配功能.我们也可以去http://tool.chinaz.com/regex/进行在线测试

元字符:

. 匹配除换行符以外的任意字符

\w 匹配字母数字或下划线

\s 匹配任意的空白符

\d 匹配数字

\n 匹配一个换行符

\t 匹配一个制表符

\b 匹配一个单词的结尾

^ 匹配字符串的开始

$ 匹配字符串的结尾

\W 匹配非字母或数字或下划线

\D 匹配非数字

\S 匹配非空白符

a|b 匹配字符a或字符b

( ) 匹配括号内的表达式,也表示一个组

[...] 匹配字符组的字符

[^...] 匹配除字符组中字符的所有字符

量词:

*重复零次或更多次

+ 重复一次或更多次

? 重复零次或一次

{n} 重复n次

{n, } 重复n次或更多次

{n,m} 重复n到m次

贪婪匹配和惰性匹配

贪婪匹配: .* .+

惰性匹配: .*? 尽可能少的匹配

转义:

\\\\n => \\n => \n

在前面添加r,原样输出

分组: 使用()

在python中使用正则.re

<?P<name>正则>

re模块是python提供的一套关于处理正则表达式的模块,核心功能有四个:

findall() 查找所有,返回list

finditer() 查找返回,返回的是迭代器,

search() 搜索. 搜索到第一个结果返回

match() 匹配. 收到一个结果返回,从头开始匹配

compile( ) 编译

group('name') 获取数据

re.S 干掉 . 的换行

# re的工作是在python中执行正则表达式

import re

# find

result = re.findall("\d+", "baby的电话号是: 185123456789")

print(result) #['185123456789']

it = re.finditer("\d+", "baby123456789的电话号是: 185123456789")

for el in it:

print(el.group()) # 分组 #123456789

#185123456789

search 搜索, 查找

一旦匹配到结果. 直接返回, 如果匹配不到结果. 返回None

result = re.search("\d", "宝宝的电话是111")

print(result) #<_sre.SRE_Match object; span=(6, 7), match='1'>

print(result.group()) #1

匹配, 从头开始匹配. 相当于在你正则前面加了一个^

result = re.match("\d+", "157宝宝的电话是:")

print(result.group()) ###157

search和match的区别: search查找. 找到了结果就返回. match. 从头开始匹配.

# 坑: 爬虫的一个重点

# .*?

result = re.finditer(r"姓名:(?P<name>.*?), 爱好:(?P<hobby>.*?),", "姓名:宝宝, 爱好:女,")

for el in result:

print(el.group("name"), el.group("hobby"))

# 正则的常用操作

result = re.split("\d+", "宝宝110来找你了. 你回头收拾收拾去119报道")

print(result)

用正则替换

s = re.sub("\d+", "__sb__", "宝宝110来找你了. 你回头收拾收拾去119报道")

print(s)

s = re.subn("\d+", "__sb__", "宝宝110来找你了. 你回头收拾收拾去119报道") # 替换了xxx次

print(s)

code = "for i in range(10): print(i)"

c = compile(code, "", "exec") # 编译

exec(c) # 快速执行

reg = re.compile(r"\d+") # 编译了一段正则. 加载了一段正则

lst = reg.findall("呵呵, 宝宝才不去110呢.他要去120了")

print(lst)

re.findall(r"\d+", "呵呵, 宝宝才不去110呢.他要去120了")

lst = re.findall(r"a(?:\d+)c", "a123456c") # 把括号python中的分组变成了原来正则表达式中的分组

print(lst)

爬取电影天堂

# 爬取电影天堂

from urllib.request import urlopen

content = urlopen("https://www.dytt8.net/html/gndy/dyzz/20181219/57954.html").read().decode("gbk")

# print(content)

reg = r'<div id="Zoom">.*?片　　名(?P<name>.*?)<br />◎年　　代(?P<years>.*?)<br />.*?◎上映日期(?P<date>.*?)<br />'+ \

'.*?◎主　　演(?P<main>.*?)◎简　　介.*?<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">'

it = re.finditer(reg, content, re.S) # re.S 去掉.里面的\n

for el in it:

print(el.group("name"))

print(el.group("years"))

print(el.group("date"))

print(el.group("main").replace("<br />　　　　　　", ", "))

print(el.group("download"))

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：python自带的帮助文档

下一篇：推荐：一个适合于Python新手的入门练手项目

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签