如何证明我Python爬虫是否入门?

2018-07-03 01:12:17来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

 

如何证明我Python爬虫是否入门?

 

一、爬虫

如何证明我Python爬虫是否入门?

 

若互联网是一张大的蜘蛛网,数据就存放在蜘蛛网的各个节点,那么爬虫就是一只小蜘蛛,

沿着网络(蜘蛛网)抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序。

二、爬虫的基本流程

获取网络数据的方式有两种:

  1. 浏览器提交请求(你在浏览器输入框输入数据然后查找的过程)--->下载网页代码--->解析成页面
  2. 模拟浏览器发送请求(获取网页代码)->提取对我们有用的数据->存放在数据库或者文件中

爬虫要做的就是第二种方式

如何证明我Python爬虫是否入门?

 

1、发起请求

利用http库向目标网站发起请求,就是发送一个Request请求,Request模块包含:请求头、请求体等 ,有不能执行JS 和CSS 代码等缺点。

2、获取响应内容

当服务器正常响应,就会得到一个Response(返回),Response包括:html,图片,json,视频等

3、解析内容

解析html数据:正则表达式(RE模块),第三方解析库pyquery,Beautifulsoup等

解析json数据:json模块

解析二进制数据:用wb的方式写入文件

4、保存数据

数据库(MySQL,Redis,Mongdb)

文件

import re

import urllib

import urllib.request

from collections import deque

三、http协议 请求与响应

如何证明我Python爬虫是否入门?

 

Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)

如何证明我Python爬虫是否入门?

 

四、 request

1、请求方式:

常见的请求方式:GET / POST

如何证明我Python爬虫是否入门?

 

网页的加载过程:

如何证明我Python爬虫是否入门?

 

3、请求头

如何证明我Python爬虫是否入门?

 

一般做爬虫都会加请求头

如何证明我Python爬虫是否入门?

 

如何证明我Python爬虫是否入门?

 

如何证明我Python爬虫是否入门?

 

请求头需要注意的参数:

如何证明我Python爬虫是否入门?

 

4、请求体

如何证明我Python爬虫是否入门?

 

如何证明我Python爬虫是否入门?

 

五、 响应Response

1、响应状态码

如何证明我Python爬虫是否入门?

 

2、respone header

响应头需要注意的参数:

如何证明我Python爬虫是否入门?

 

3、preview就是网页源代码

如何证明我Python爬虫是否入门?

 

六、总结

Python爬虫流程:

爬取--->解析--->存储

那么怎样的案例最好证明是否入门呢?请看下面示例!

如何证明我Python爬虫是否入门?

 

这个Python爬虫案例非常简单,也非常有证明力,你没学肯定看不懂,然而你只不过是个偶尔看了两个教程,那么你也未必看得懂。

如何证明我Python爬虫是否入门?

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:【Django】Django开发中的日志输出

下一篇:利用Python把github上非常实用的数据全部抓取下来!留给自己备用