Scrapy爬虫遇到 ‘Forbidden by robots.txt’的…

2018-11-26 08:01:14来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

今天在爬知乎精华时,出现了‘Forbidden by robots.txt’的问题

了解scrapy在爬取设定的url之前,它会先向服务器根目录请求一个txt文件,这个文件规定了爬取范围

scrapy会遵守这个范围协议,查看自己是否符合权限,出错说明不符合,所以我们只要不遵守这个协议就Ok了

在settings.py中找到 ROBOTSSTXT_OBEY

ROBOTSTXT_OBEY=False

 

问题就解决了。

 

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:Python学习手册之内部方法、操作符重载和对象生命周期

下一篇:初识计算机和编程简单运用