首页 > > 网络编程 > 其它 >

python爬虫之路——初识爬虫原理

2018-06-18 02:09:21来源：未知阅读 ()

爬虫主要做两件事

①模拟计算机对服务器发起Request请求

②接收服务器端的Response内容并解析，提取所需的信息

互联网页面错综复杂，一次请求不能获取全部信息。就需要设计爬虫的流程。

本书主要介绍两种流畅①多页面爬虫流程②跨页面爬虫流程

多页面爬虫流程：

（1）手动翻页并观察各页面的URL构成特点，构造出所有页面的URL存入列表

（2）根据URL列表依次循环取出URL

（3）定义爬虫函数

（4）循环调用爬虫函数，存储数据。

（5）循环结束，结束爬虫程序。

跨页面的爬虫程序：

（1）定义爬取函数爬取页面中（列表页）的专题URL

（2）将专题URL存入列表中作为种子URL

（3）定义爬虫函数

（4）根据种子URL循环调用爬虫函数，存储数据。

（5）循环结束，结束爬虫程序。

两种流程区别：自己构造URL列表，爬取页面URL列表

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

热门词条

最新资讯

热门关注

热门标签