动态网页怎么爬?这样爬才是最适合零基础小白的…
2018-07-13 02:46:26来源:博客园 阅读 ()
本实战是上图中的“独立python爬虫”的一个实例,以采集豆瓣小组讨论话题(https://www.douban.com/group/haixiuzu/discussion?start=0 )信息为例,记录整个采集流程,包括python和依赖库的安装,即便是python初学者,也可以跟着文章内容成功地完成运行。
2.4,安装selenium
pip install selenium2.5,PhantomJS下载
下载地址 http://phantomjs.org/download.html把下载得到的phantomjs-2.1.1-windows.zip解压到本机的某个文件夹下把解压后的文件夹中的phantomjs.exe的完整路径加文件名记录下来,用来替换下面代码的 browser = webdriver.PhantomJS(executable_path='C:\phantomjs-2.1.1-windows\bin\phantomjs.exe') 这一行中的两个单引号之间的内容。
3,网络爬虫的源代码
运行过程如下:
将上面的代码保存到douban.py中,和前面2.3步下载的提取器类gooseeker.py放在同一个文件夹中打开Windows CMD窗口,切换当前目录到存放douban.py的路径(cd \xxxx\xxx)运行 python douban.py
5,总结因为信息采集规则是通过api下载下来的,所以,本案例的源代码显得十分简洁。同时,整个程序框架变得很通用,因为最影响通用性的采集规则是从外部注入的。
6,集搜客GooSeeker开源代码下载源
1. GooSeeker开源Python即时网络爬虫GitHub源
简单吧!嘿嘿!私信小编007即可获取数十套PDF哦!
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- 手把手教你破解文件密码、wifi密码、网页密码 2019-07-24
- 零基础怎么学Python?6个月的学习历程,我是这样走过来的! 2019-07-24
- Pycharm界面的子窗口不见了,怎么办? 2019-07-24
- python爬虫登陆网页版腾讯课堂 2019-07-24
- 针对源代码和检查元素不一致的网页爬虫——利用Selenium、Ph 2019-07-24
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash