零基础没关系,只要会了这4步,一般的爬虫随便玩…

2018-07-06 01:18:59来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

什么是爬虫?

零基础没关系,只要会了这4步,一般的爬虫随便玩!爬虫实战!

 

零基础没关系,只要会了这4步,一般的爬虫随便玩!爬虫实战!

 

零基础没关系,只要会了这4步,一般的爬虫随便玩!爬虫实战!

 

第一步: 获取网页数据


获取网页数据,也就是通过网址( URL:Uniform Resource Locator,统一资源 定位符),获得网络的数据,充当搜索引擎。当输入网址,我们就相当于对网址服务器发送了一个请求,网站服务器收到以后,进行处理和解析,进而给我们一个相应的相应。如果网络正确并且网址不错,一般都可以得到网页信息,否则告诉我们一个错误代码,比如404. 整个过程可以称为请求和响应。

零基础没关系,只要会了这4步,一般的爬虫随便玩!爬虫实战!

 

在python程序里面,上述过程可以通过获取网页中的源代码实现,进而获得网页中的数据。首先看一下网址的源代码查看方法,使用google浏览器,右键选择检查,查看需要爬取的网址源代码,具体如下:从图可得知,在Network选项卡里面,点击第一个条目,也就是www.baidu.com,看到源代码。在本图中,第一部分是General,包括了网址的基本信息,比如状态 200等,第二部分是Response Headers,包括了请求的应答信息,还有body部分,比如Set-Cookie,Server等。第三部分是,Request headers,包含了服务器使用的附加信息,比如Cookie,User-Agent等内容。

零基础没关系,只要会了这4步,一般的爬虫随便玩!爬虫实战!

 

零基础没关系,只要会了这4步,一般的爬虫随便玩!爬虫实战!

 

第二步:解析网页数据


在第一步,我们获得了网页的源代码,也就是数据。然后就是解析里面的数据,为我们的分析使用。常见的方法有很多,比如正则表达式、xpath解析等。

零基础没关系,只要会了这4步,一般的爬虫随便玩!爬虫实战!

 

第三步:存储网页数据


解析完数据以后,就可以保存起来。如果不是很多,可以考虑保存在txt 文本、csv文本或者json文本等,如果爬取的数据条数较多,我们可以考虑将其存储到数据库中。因此,我们需要学会 MySql、MongoDB、SqlLite的用法。更加深入的,可以学习数据库的查询优化。

零基础没关系,只要会了这4步,一般的爬虫随便玩!爬虫实战!

 

第四步:分析网页数据


爬虫的目的是分析网页数据,进的得到我们想要的结论。在 python数据分析中,我们可以使用使用第三步保存的数据直接分析,主要使用的库如下:NumPy、Pandas、 Matplotlib 三个库。

  • NumPy :它是高性能科学计算和数据分析的基础包。
  • Pandas : 基于 NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。它可以算得上作弊工具。
  • Matplotlib:Python中最著名的绘图系统Python中最著名的绘图系统。它可以制作出散点图,折线图,条形图,直方图,饼状图,箱形图散点图,折线图,条形图,直方图,饼状图,箱形图等。

要想学会这是不还是需要时间的呢。

进群:125240963  !即可获取数十套PDF哦!

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:Flask_appbuilder的学习:(1)安装

下一篇:LeetCode链表相加-Python<二>