首页 > > 网络编程 > 其它 >

Python3爬虫（二）网络爬虫的尺寸与约束

2018-06-18 02:36:54来源：未知阅读 ()

Infi-chu:

http://www.cnblogs.com/Infi-chu/

一、网络爬虫的尺寸：

1.小规模，数据量小，爬取速度不敏感，Requests库，爬取网页
2.中规模，数据规模较大，爬取速度敏感，Scrapy库，爬取网站
3.大规模，大规模，搜索引擎，爬取速度很关键，定制开发，爬取全站

二、Robots协议：

1.含义Robots Exclusion Standard 网络爬虫排除标准
2.作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
3.形式：在网站根目录下的robots.txt文件
4.使用：
　　a.网络爬虫：自动或人工识别robots.txt，再进行内容爬取
　　b.约束性：可以不遵循，但要注意法律风险

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有