首页 > > 网络编程 > 其它 >

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrap…

2018-07-17 04:06:06来源：博客园阅读 ()

新老客户大回馈,云服务器低至5折

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

可以看到，scrapy单机模式，通过一个scrapy引擎通过一个调度器，将Requests队列中的request请求发给下载器，进行页面的爬取。

那么多台主机协作的关键是共享一个爬取队列。

所以，单主机的爬虫架构如下图所示：

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

前文提到，分布式爬虫的关键是共享一个requests队列，维护该队列的主机称为master，而从机则负责数据的抓取，数据处理和数据存储，所以分布式爬虫架构如下图所示：

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

2、环境配置

目前已经有专门的python库实现了分布式架构。Scrapy-Redis库改写了Scrapy的调度器，队列等组件，可以方便的实现Scrapy分布式架构。

Scrapy-Redis链接：https://github.com/rolando/scrapy-redis

不过，想要运用这个库，我们需要安装Redis数据库

（1）windows安装redis

下载地址：https://github.com/MSOpenTech/redis/releases

下载完成后，安装即可，非常简单（其实这里没有用到windows的redis，不过装一装也不麻烦），安装完成后，windows的本地redis服务是默认启动的。

接下来可以继续安装一个redis可视化工具，Redis Desktop Manager

下载地址:https://github.com/uglide/RedisDesktopManager/releases

我们选择一个比较稳定的版本进行下载：

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

安装完成，我们可以测试一下本地的redis环境，输入我们的连接信息：

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

（3）windows下访问虚拟机redis

我们选择使用虚拟机上的redis数据库来维护爬取队列，所以接下来，我们使用windows下的可视化客户端访问虚拟机下的redis：

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

可以看到，成功访问：

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

3、代码实现

使用Scrapy-Redis实现分布式爬虫，需要在scrapy的setting.py中添加如下的配置，当然还有很多其他可用配置，这里只需添加如下的几个就可以实现分布是爬取：

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

而redis中，则维护了一个爬取队列:

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

短短几分钟，我们就抓取了百度贴吧聊天吧的100页帖子3900+条，存入了本地的mongodb数据库：

装个虚拟机，然后拿来玩爬虫！也是极好的！Scrapy分布式爬虫！

至此，分布式爬虫练手完毕！

如果想要学习python爬虫的话，

进群：125240963 即可获取数十套PDF哦！

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：Python BeautifulSoup抓取表情包并保存

下一篇：python介绍

相关文章

Python练手例子（15） 2019-02-25
Django环境配置 2019-02-20
利用Python写了一个翻译工具！然后就成为了学弟眼中的大神了 2018-07-16
Linux下安装Python3 2018-06-18
VirtualBox5虚拟机安装ubuntu16.04 2018-06-18

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签