首页 > > 网络编程 > 其它 >

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松…

2018-08-07 08:50:21来源：博客园阅读 ()

爬虫介绍

学习Python爬虫过程中，一般使用的库主要是：requests 和BeautifulSoup

。其中 requests用于将链接转化成html语言，而BeautifulSoup则用于查找需要的内容。具体爬虫原理，请参考文章：Python实战 | 只需 “4步” 入门网络爬虫（有福利哦）。这两个库是爬虫的主要武器，今天主要分析一下第二个利器BeautifulSoup.

BeautifulSoup介绍

Beautiful Soup最主要的功能是使用网页的树形结构和属性等特性来解析网页内容，安装方法如下：

进群：125240963 即可获取数十套·PDF哦！

`python`

pip install beautifulsoup4

在使用bs4解析网页的方法中，一般使用的是通过节点的属性或者过滤器findall()和find()方法。这两个方法都比较繁琐，不够灵活。今天主要是通过采用bs4中的选择器来进行页面解析。也就是通过网页中的CSS进行选择想要的内容，具体语法是 soup.select()方法。该语法的关键点在于：对于所需内容的精准定位，也就是通过括号（）内的语句来实现。

什么是css

CSS（Cascading Style Sheets)层叠样式表是一种用来表现HTML或XML等文件样式的计算机语言. 在使用CSS 时，标签名不加任何修饰，类名（class="className"引号内即为类名）前加点，id名（id="idName"引号前即为id名）前加 #。在爬虫中，我们也可以利用类似的方法来筛选元素，在python中的方法是 soup.select()，返回类型是 list，主要通过以下方法进行查找.

利用Chrome浏览器的检查功能查看网站的css样式。打开科技网页，鼠标放在网页上，右键，选择检查即可看到网页右边多了一个代码部分，具体如下图。

通过标签名查找

标签的话，可以直接寻找。直接在select方法中填写标签名字即可，比如a标签。select方法会返回所有a标签的内容。

使用 Chrom浏览器查看命名为a的标签，然后通过python的select方法选择其对应的内容具体如下：

tag = soup.select('a')

print("===============================")

print("通过标签查询信息：")

print(tag)

print("===============================")

通过类名查找

对于html内的内容，可以通过class来进行定位.一般形式为：.类名。

使用 Chrom浏览器查看命名为content的类名，然后通过python的select方法选择其对应的内容。

class_name = soup.select('.content')

print("===============================")

print("通过类名查询信息：")

print(class_name)

print("===============================")

通过id名查找

id在一个html中是唯一的，因此可以通过id来找寻唯一的内容.在select方法中，具有语法是“#id名字”. 使用 Chrom查看命名为wrapper的id，然后通过python的select方法选择其对应的内容。

css样式中的ID

代码以及结果如下

id_wrapper = soup.select('#wrapper')

print("===============================")

print("通过ID查询信息：")

print(id_wrapper)

print("===============================")

组合查找

组合查找是通过css中的标签名与类名、id名进行的组合。需要注意：空格隔空。

打开科技网站的图片标题信息，具体的css样式如下图所示。节点section的子几点h4里面有个a节点包括了title信息。

使用组合方法查找title信息，代码如下如：

#第二种方法：

titles2 = soup.select('section.content > h4 > a')

print('titles is :'.format(titles2))

结果如下：

属性查找

查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。具体如下

`python`

'''

print soup.select("head > title")

#[<title>The Dormouse's story</title>]

print soup.select('a[href="http://example.com/elsie"]')

#[<a class="sister" href="http://example.com/elsie" id="link1"></a>]

同样，属性仍然可以与上述查找方式组合，不在同一节点的空格隔开，同一节点的不加空格

print soup.select('p a[href="http://example.com/elsie"]')

#[<a class="sister" href="http://example.com/elsie" id="link1"></a>]

介绍一个最简单的方法

以上的方法可能比较繁琐，因为需要记住id或者class名字等内容，但是Google浏览器给我们提供了一个非常方便的功能：copy slector，直接可以复制css样式。具体路径是：鼠标放在网页上右键->检查->elements->右键选择copy 找到copy selector

实战练习：打开knewone网站，发现很多科技产品，如下图

鼠标放在任何一个商品信息的图片上，然后右键，找到css样式，然后使用bs4中的select方法提取图片信息（把copy到的css样式直接复制到select的方法中即可），具体代码如下：

`python`

'''

使用copy获取图片

'''

#直接使用cope seletor

#wrapper > ul > li:nth-child(21) > article > header > a > img

imgs = soup.select('#wrapper > ul > li > article > header > a > img')

效果如下，可以看到select方法返回的是一个列表

任何一个静态网页都可以使用上面的爬取利器爬取下来。是不是很好用，赶快试一下吧。

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：Python安装

下一篇：【leetcode 简单】第五题最长公共前缀

解决python中的Non-UTF-8 code starting with ‘\xbs4’ in 2019-07-24
案例 — 使用bs4 爬取猫眼电影热榜 2019-07-24
生成器 2019-05-23
【Python学习】爬虫报错处理bs4.FeatureNotFound 2019-04-11
Python BeautifulSoup 使用 2019-01-21

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签