多线程爬虫介绍
2018-09-05 07:57:28来源:博客园 阅读 ()
一个进程里只有一个线程,我们称之为单线程爬虫。单线程爬虫每次只访问一个页面,不能充分利用电脑的网络带宽。一个页面最多也就几百KB,所以爬虫在爬取一个页面的时候,多出来的网速就浪费掉了。
而如果我们可以让爬虫同时访问10个页面,就相当于我们的爬取速度提高了10倍。这个时候就需要使用多线程技术了。
这里有一点要强调一下,Python这门语言在设计上的时候,有一个GIL锁。这个东西让Python的多线程都是伪多线程。本质上还是只有一个线程,但是这个线程每个事情只做几毫秒,做完几秒救保存线程,换做其他事情几毫秒,换一轮下来继续回到第一件事上,恢复线程再做几秒,继续换……
在《X战警-天启》中,万磁王他儿子从教授的学院里面救出了非常多的人。由于他速度非常的快,所以虽然它是一个人一个人救的,但是对其他人来说,就感觉像是全部同时移动到了学校外面去了一样。
这样微观上的单线程,在宏观上看起来就像是同时在做几件事。这种机制在IO密集型的操作上面影响也不大,但是在CPU计算密集型的操作上面,由于CPU本来十分繁忙,这就会对性能产生非常大的影响。所以涉及到计算密集型的程序,就需要使用多进程,Python的多进程不受GIL锁的影响。
爬虫属于IO密集型的程序,所以使用多线程不会不会对性能造成太大的影响。
转载:极客学院某位老师的话(修改了一点点)。
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- 小白如何入门 Python 爬虫? 2019-08-13
- Python连载30-多线程之进程&线程&线程使用 2019-08-13
- python day2-爬虫实现github登录 2019-08-13
- python爬虫学习之爬取超清唯美壁纸 2019-08-13
- python多线程同步实例分析 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash