首页 > > 网络编程 > 其它 >

爬虫框架Scrapy 之(一) --- scrapy初识

2019-04-28 08:23:56来源：博客园阅读 ()

新老客户大回馈,云服务器低至5折

Scrapy框架简介

scrapy是基于Twisted的一个第三方爬虫框架，许多功能已经被封装好，方便提取结构性的数据。其可以应用在数据挖掘，信息处理等方面。提供了许多的爬虫的基类，帮我们更简便使用爬虫。

Scrapy 的组成部分： 1. 引擎、2.下载器、3. 爬虫、4. 调度器、5. 管道（item和pipeline）

　　以上五部分只需要关注爬虫和管道即可

spiders：蜘蛛或爬虫，分析网页的地方，主要的代码写在这里
管道：包括item和pipeline，用于处理数据
引擎：用来处理整个系统的数据流，触发各种事务（框架的核心）
下载器：用于下载网页内容，并且返回给蜘蛛（下载器基于Twisted的高效异步模型）
调度器：用来接收引擎发过来的请求，压入队列中等处理任务

Scrapy框架安装

Mac安装步骤

安装依赖库Twisted。打开终端 pip install twisted
安装其框架Scrapy。 pip install scrapy

wid安装步骤

在线安装和Mac相同, pip install twisted
离线安装需要在网站http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted下载响应的版本，然后想下载好的文件拖到 pip install 后面
安装其框架和Mac相同
安装 pip install pywin32

Scrapy工程创建

工程创建：

首先在终端 cd到存放的目录下
创建项目： scrapy startproject 项目名。
然后在pycharm中打开此项目(空工程)
创建爬虫： scrapy genspider 爬虫名域名
运行爬虫 scrapy crawl 爬虫名 [-o xx.json/xml/csv]

工程配置运行：

根据需求编写item
在spiders里面解析数据
在管道中处理解析完的数据

原文链接:https://www.cnblogs.com/TMMM/p/10774254.html
如有疑问请与原作者联系

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：lambda表达式，map函数

下一篇：string首字母大写

相关文章

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签