爬虫框架Scrapy 之(一) --- scrapy初识

2019-04-28 08:23:56来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

Scrapy框架简介

scrapy是基于Twisted的一个第三方爬虫框架,许多功能已经被封装好,方便提取结构性的数据。其可以应用在数据挖掘,信息处理等方面。提供了许多的爬虫的基类,帮我们更简便使用爬虫。

Scrapy 的组成部分: 1. 引擎、2.下载器、3. 爬虫、4. 调度器、5. 管道(item和pipeline)

   以上五部分 只需要关注 爬虫管道 即可

  1. spiders:蜘蛛或爬虫,分析网页的地方,主要的代码写在这里
  2. 管道:    包括item和pipeline,用于处理数据
  3. 引擎:    用来处理整个系统的数据流,触发各种事务(框架的核心)
  4. 下载器: 用于下载网页内容,并且返回给蜘蛛(下载器基于Twisted的高效异步模型)
  5. 调度器: 用来接收引擎发过来的请求,压入队列中等处理任务

 

Scrapy框架安装

Mac安装步骤

  1. 安装依赖库Twisted。 打开终端  pip  install  twisted
  2. 安装其框架Scrapy。 pip install scrapy

wid安装步骤

  1. 在线安装和Mac相同, pip  install   twisted
  2. 离线安装 需要在网站http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted下载响应的版本,然后想下载好的文件拖到 pip install 后面
  3. 安装其框架和Mac相同
  4. 安装 pip   install   pywin32

 

Scrapy工程创建

工程创建:

  1. 首先 在终端 cd到存放的目录下
  2. 创建项目: scrapy startproject 项目名。 
  3. 然后 在pycharm中打开此项目(空工程)
  4. 创建爬虫: scrapy genspider 爬虫名 域名 
  5. 运行爬虫 scrapy crawl 爬虫名 [-o xx.json/xml/csv]

工程配置运行:

  1. 根据需求编写item
  2. 在spiders里面解析数据
  3. 在管道中处理解析完的数据

 


原文链接:https://www.cnblogs.com/TMMM/p/10774254.html
如有疑问请与原作者联系

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:lambda表达式,map函数

下一篇:string首字母大写