首页 > > 网络编程 > 其它 >

爬虫入门

2018-12-02 06:17:07来源：博客园阅读 ()

爬虫的定义

什么是爬虫？

　　　　爬虫(又被称为网页蜘蛛，网络机器人)就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

　　　　原则上，只要是浏览器(客户端)能做的事情，爬虫都能够做。

爬虫的分类和爬虫的流程

　　爬虫的分类

　　根据被爬网站的数量不同，我们把爬虫分为

通用爬虫：通常指搜索引擎的爬虫
聚焦爬虫：针对特定网站的爬虫

　　聚焦爬虫的工作流程如下

　　　　urllist --> 响应的内容 --> 提取数据 -->入库

robots协议

robots协议

　　网站通过robots协议告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓取，但它仅仅是道德层面上的约束

HTTPS和HTTP的复习

　　http和https的概念

　　HTTP

超文本传输协议
默认端口号：80

　　HTTPS

HTTP+SSL(安全套接字层)

默认端口号：443

　　https比http更安全，但性能更低

浏览器发送http请求的过程

　　当我们在本地输入www.baidu.com的时候，浏览器会先尝试从本地的host文件中获取到对应的ip地址，如果不能，会通过DNS服务器获取www.baidu.com对应的ip。

下一步就是使用tcp协议，建立tcp连接。然后使用HTTP协议请求网页的内容，收到服务器的回应，得到一串HTML形式的文本，浏览器把它渲染并显示到屏幕上。

浏览器会自动请求js，css等内容，js会修改页面内容。最后浏览器渲染出来的内容在elements中，其中包括css，js，图片，url地址对应响应的内容等。

　　但是在爬虫中，爬虫只会请求url地址，拿到url地址响应的内容

渲染出来的页面和爬虫请求的页面不一样

所以在爬虫中，需要以url地址对应的响应来提取内容

url的形式

　　url的形式：scheme://host[:port#]/path/…/[?query-string][#anchor]

scheme：协议
host：服务器的ip地址或者域名
port：端口号
path：请求资源的路径
query_string：参数，发送给http服务器的数据
anchor：锚 (跳转到网页的指定的锚点位置)

http重点的请求头

　　user-agent：告诉对方服务器是什么客户端正在请求资源，爬虫中模拟浏览器非常重要的一个手段

python2和python3中的字符串

ascii 一个字节表示一个字符
unicode 两个字节表示一个字符
utf-8 变长的编码，可以是1，2，3，4个字节

　　python2

字节类型，str类型，通过decode()转为unicode类型
unicode类型：unicode，通过encode()转为str字节类型

　　python3

str：unicode，通过encode()转为bytes类型
bytes：字节类型，通过decode()转为str类型

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：Python流程控制语句

下一篇：修改全局变量时，可变类型和不可变类型的区别

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签

爬虫入门

爬虫的定义

什么是爬虫？

爬虫的分类和爬虫的流程

爬虫的分类

robots协议

HTTPS和HTTP的复习

http和https的概念

浏览器发送http请求的过程

url的形式

http重点的 请求头

python2和python3中的字符串

python2

python3

　　爬虫的分类

　　http和https的概念

http重点的请求头

　　python2

　　python3