动态网页怎么爬?这样爬才是最适合零基础小白的…

2018-07-13 02:46:26来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

 

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

 

本实战是上图中的“独立python爬虫”的一个实例,以采集豆瓣小组讨论话题(https://www.douban.com/group/haixiuzu/discussion?start=0 )信息为例,记录整个采集流程,包括python和依赖库的安装,即便是python初学者,也可以跟着文章内容成功地完成运行。

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

 

2.4,安装selenium

pip install selenium2.5,PhantomJS下载

下载地址 http://phantomjs.org/download.html把下载得到的phantomjs-2.1.1-windows.zip解压到本机的某个文件夹下把解压后的文件夹中的phantomjs.exe的完整路径加文件名记录下来,用来替换下面代码的 browser = webdriver.PhantomJS(executable_path='C:\phantomjs-2.1.1-windows\bin\phantomjs.exe') 这一行中的两个单引号之间的内容。

3,网络爬虫的源代码

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

 

运行过程如下:

将上面的代码保存到douban.py中,和前面2.3步下载的提取器类gooseeker.py放在同一个文件夹中打开Windows CMD窗口,切换当前目录到存放douban.py的路径(cd \xxxx\xxx)运行 python douban.py

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

 

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

 

5,总结因为信息采集规则是通过api下载下来的,所以,本案例的源代码显得十分简洁。同时,整个程序框架变得很通用,因为最影响通用性的采集规则是从外部注入的。

6,集搜客GooSeeker开源代码下载源

1. GooSeeker开源Python即时网络爬虫GitHub源

简单吧!嘿嘿!私信小编007即可获取数十套PDF哦!

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:那些你还不知晓的Python加密方式,现在有机会接触了,种类繁多!

下一篇:爬取网站总是被封?大神教你搭建Cookies池,以后远离IP被封