如何证明我Python爬虫是否入门?
2018-07-03 01:12:17来源:博客园 阅读 ()
一、爬虫
若互联网是一张大的蜘蛛网,数据就存放在蜘蛛网的各个节点,那么爬虫就是一只小蜘蛛,
沿着网络(蜘蛛网)抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序。
二、爬虫的基本流程
获取网络数据的方式有两种:
- 浏览器提交请求(你在浏览器输入框输入数据然后查找的过程)--->下载网页代码--->解析成页面
- 模拟浏览器发送请求(获取网页代码)->提取对我们有用的数据->存放在数据库或者文件中
爬虫要做的就是第二种方式
1、发起请求
利用http库向目标网站发起请求,就是发送一个Request请求,Request模块包含:请求头、请求体等 ,有不能执行JS 和CSS 代码等缺点。
2、获取响应内容
当服务器正常响应,就会得到一个Response(返回),Response包括:html,图片,json,视频等
3、解析内容
解析html数据:正则表达式(RE模块),第三方解析库pyquery,Beautifulsoup等
解析json数据:json模块
解析二进制数据:用wb的方式写入文件
4、保存数据
数据库(MySQL,Redis,Mongdb)
文件
import re
import urllib
import urllib.request
from collections import deque
三、http协议 请求与响应
Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)
四、 request
1、请求方式:
常见的请求方式:GET / POST
网页的加载过程:
3、请求头
一般做爬虫都会加请求头
请求头需要注意的参数:
4、请求体
五、 响应Response
1、响应状态码
2、respone header
响应头需要注意的参数:
3、preview就是网页源代码
六、总结
Python爬虫流程:
爬取--->解析--->存储
那么怎样的案例最好证明是否入门呢?请看下面示例!
这个Python爬虫案例非常简单,也非常有证明力,你没学肯定看不懂,然而你只不过是个偶尔看了两个教程,那么你也未必看得懂。
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- python3基础之“术语表(2)” 2019-08-13
- python3 之 字符串编码小结(Unicode、utf-8、gbk、gb2312等 2019-08-13
- Python3安装impala 2019-08-13
- 小白如何入门 Python 爬虫? 2019-08-13
- python_字符串方法 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash