Python3爬虫(一)HTTP相关基础
2018-06-18 02:36:46来源:未知 阅读 ()
Infi-chu:
http://www.cnblogs.com/Infi-chu/
一、URI、URL、URN、HTTP
URI:统一资源标志符
URL:是URI的一个子集
URN:是URI的另一个子集,统一资源名称
HTTP协议:
超文本传输协议,是一个基于“请求与响应”模式的、无状态的引用层协议。
HTTP协议采用URL作为定位网络资源的标识。
URL格式 http://host[:port][path]
二、请求
1.请求方法
2.请求的网址
3.请求头
4.请求体
三、响应:
1.响应状态码
2.响应头
3.响应体
四、GET和POST的区别:
1.GET相对于POST较不安全,GET将参数包含在URL里面,POST是通过表单形式传输的,包含在请求体中。
2.GET最多提交的数据大小为1024字节,POST没有限制
3.GET效率较高与POST
五、DOM
1.含义:文档对象模型,定义了访问HTML和XML文档标准
2.DOM:
1.核心DOM:针对任何结构化文档的标准模型
2.XML DOM:针对XML文档的标准模型
3.HTML DOM:针对HTML文档的标准模型
a.整个文档是一个文档节点
b.每个HTML元素是元素节点
c.HTML元素内的文本是文本节点
d.每个HTML属性是属性节点
e.注释是注释节点
【注】
节点树中的节点,批次拥有层级关系,常用的有父节点(parent)、子节点(child)、兄弟节点(sibling)
六、爬虫爬取的步骤:
1.获取网页
2.提取信息
3.保存数据
4.自动化爬取程序
七、代理的作用:
1.突破自身IP访问限制,访问一些平时不能访问的站点
2.访问一些单位或团体的内部资源
3.提高访问速度
4.隐藏真实IP
八、代理的分类
1.根据协议分类:
协议 一般开放端口
FTP 21、2121
HTTP 80、8080、3128
SSL/TLS 443
RTSP 554
Telnet 23
POP3/SMTP 110/25
SOCKS 1080
2.根据匿名程度分类:
a.高度匿名代理
b.普通匿名代理
c.透明代理
d.间谍代理
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- python3基础之“术语表(2)” 2019-08-13
- python3 之 字符串编码小结(Unicode、utf-8、gbk、gb2312等 2019-08-13
- Python3安装impala 2019-08-13
- 小白如何入门 Python 爬虫? 2019-08-13
- python day2-爬虫实现github登录 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash