首页 > > 网络编程 > 其它 >

网络爬虫基础知识（Python实现）

2018-07-18 01:16:00来源：博客园阅读 ()

浏览器的请求

url=请求协议（http/https）+网站域名+资源路径+参数

http:超文本传输协议（以明文的形式进行传输），传输效率高，但不安全。

https:由http+ssl（安全套接子层）组成；传输之前数据先加密，之后解密获取内容，传输效率低但安全。

HTTP协议之请求

1请求行

2.请求头（user-Agent：用户代理【对方服务器通过user-Agent知道当前请求资源的是神么网站】）

3.请求体（get 请求没有请求体，post有；get 请求把数据放在url地址中）

post请求常用于登入，注册以及传输大文本时

HTTP协议之响应

1.响应头（set cookie:对方服务通过该字段设置cookie的值到本地）

2.响应体（url地址对应的响应内容）

网络爬虫的逻辑

1.确定起始url

2.发送请求获取响应

3.提取数据

4.保存

5构造下一个url 地址，循环2-5步。（使用retrying，当请求不成功时，重复进行请求）

response.request.url:得到的是发送请求url地址

response.url是resonse响应的url地址

发送get post 请求获取响应；

url="https://i.cnblogs.com"

headers={

}

response=request.get(url,headers=headers)

response=request.post(url,headers=headers,data={请求体字典【键值对格式】})

获取网页源码内容的方法；（依次使用三种方式一定可以获取网页的正确内容，当前面一种方式不能获取到时，改用下一种）

1)response.content.decode()//把响应的二进制字节流转化为str 类型.默认使用的是utf-8编码

2）response.content.decode("gbk")用指定的编码进行编码

3）response.text 浏览器会以自己猜测的编码形式进行编码

处理cookie相关请求的方法

1）直接放在headers中

2）把cookie放在字典中

3）先发送post请求，带上cookie请求登入

session=request.session()// 实例化session对象

session.post(url,data,headers)// 获取对方保存在本地的cookie内容

session.get(url) //session会自动带上cookie

数据提取的方法：

json.loads 作用：把json字符串转化为python类型

json.dumps 把python类型转化为json字符串

ensure_ascill 能让页面中的中文字符正确显示为中文

indent: 能够让下一行显示时在下一行的基础上显示空格

xpath：一门从html中提取数据的语言

xpath语法：

1.选择节点（标签）/html/head/meta 表示选中head下的所有meta标签

2.//双斜线能够从任一节点开始选择

./a 表示当前节点下的a 标签

3.@的用途

@的作用是取某个节点属性的值

例如：//div[@class='box1']/

4.获取文本

/a/text() 表示获取a标签的文本

/a//text() 表示获取a标签下的所有文本（可能不是直接在a标签下）

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：购物车程序

下一篇：生成器的那些隐藏技能你肯定不知道！最详细的使用技巧详解！

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签