首页 > > 网络编程 > 其它 >

scrapy框架的使用

2018-12-24 09:06:31来源：博客园阅读 ()

Scrapy 框架架构

一.Scrapy框架是基于Twisted的异步框架，纯Python实现的爬虫框架，耦合程度低，可拓展性极强。

1.Engine引擎，处理整个系统的数据流、触发事物、框架的核心

2.item项目，定义爬虫爬取结果的数据结构，爬取的数据会被赋值成该item对象

3.Schedule调度器，接受engine发过来的request放入队列，然后engine再次请求时，将request发送给engine

4.Downloader下载器，下载网页内容，并将网页返回给spiders

5.spiders蜘蛛，定义爬取逻辑和网页解析规则，负责解析response提取结果并返回新的request

6.item Pipeline项目管道，负责处理由蜘蛛从网页中抽取项目，进行清洗，验证和存储数据

7.Downloader Middlewares下载器中间件，主要处理engine和Downloader之间的请求及响应

8.spider Middlewares 蜘蛛中间件，主要处理spiders输入的响应和输出结果及新的请求

scrapy数据流

1.engine打开网站，向这个网站的spider请求第一个要爬取的URL

2.engine通过Scheduler以request的形式调度第一个URL

3.engine向Scheduler请求下一个要爬取的URL

4.Scheduler返回下一个要爬取的URL给engine，engine将URL通过Downloader Middlewares 转发给Downloader下载

5.一旦页面下载完毕，Downloader生成该页面的Response，并将其通过Downloader Middlewares发送给Engine

6.Engine从下载器中接受Response，并将其通过Spider Middlewares发送给Spider处理

7.Spider处理Response，并返回爬取到的Item及新的Request给Engine

8.Engine将Spider返回的Item给Item Pipeline，将新的Request给Scheduler

9.重复第2到第8步，直到Scheduler中没有更多的Request，Engine关闭该网站，爬取接受

Scrapy项目认识

1.安装Scrapy通过pip安装 pip install Scrapy

2.创建Scrapy项目，直接通过scrapy命令 scrapy startproject XXXXX 这个命令可以在任意文件夹运行，我们在一个文件夹中用scrapy startproject Tanzhou命令生成一个Tanzhou的文件夹，再进入Tanzhou文件中，用命令scrapy genspider Tanzhous shiguangkey.com在文件夹中生成Tanzhous.py文件

3.构造请求

class TanzhousSpider(scrapy.Spider):
    name = 'Tanzhous'
    allowed_domains = ['shiguangkey.com']
    baseUrl = 'https://www.shiguangkey.com/course/list?page='
    offset=0

    start_urls = [baseUrl + str(offset)]

4.创建Item，在items.py文件中

import scrapy


class TanzhouItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 课程金额
    money = scrapy.Field()
    # 课程名称
    title = scrapy.Field()
    #课程人数
    personNum=scrapy.Field()

5.解析响应，在Tanzhous.py类的parse（）方法中直接对response进行解析，并添加到item中，再返回Item。后面使用了前面offset来构造新的request，使用callback

函数再次解析request

def parse(self, response):
        nodes=response.xpath('.//div[@class="course-item w192 h240 fl"]')
        for node in nodes:
            item=TanzhouItem()

            item['money']=node.xpath('normalize-space(.//div[@class="item-line"]/span/text())').extract_first()
            item['title']=node.xpath('normalize-space(.//div[@class="itemcont"]/a/text())').extract_first()
            item['personNum']=node.xpath('.//div[@class="item-line"]/a/text()').extract_first()
            
            yield item

            if self.offset <24:
               self.offset += 1
               url = self.baseUrl + str(self.offset)
               yield scrapy.Request(url, callback=self.parse)

6.进入目录运行项目使用命令 scrapy crawl Tanzhous，可以运行结果，

这只是一部分内容，通过Scrapy框架可以做到边解析边爬取，直到爬取结束，停止

7.可以将命令窗口爬取到的内容保存到文件，执行下面的命令保存成json文件 scrapy crawl Tanzhous -o Tanzhous.json运行之后就可以看见json文件了

还可以通过命令输出csv、xml、pickle、marshal格式

scrapy crawl Tanzhous -o Tanzhous.csv

scrapy crawl Tanzhous -o Tanzhous.xml

scrapy crawl Tanzhous -o Tanzhous.pickle

scrapy crawl Tanzhous -o Tanzhous.marshal

8.将结果保存到MongoDB数据库要通过定义Item Pipeline实现，修改pipeline.py文件添加新类TextPipeline 实现process_item()方法，ItemPipeline是项目管道，前面生成的Item都要被送到ItemPipeline进行处理，也就是清理Html数据，验证爬虫数据，查重，再保存到数据库中

import pymongo
from scrapy.exceptions import DropItem


class TextPipeline(object):

    def __init__(self):
        self.limit=50
    def process_item(self, item, spider):
        if item['title']:
           if len(item['title'])>self.limit:
              item['title']=item['title'][0:self.limit].rstrip()+'...'
           return item
        else:
           return DropItem('Missing Text')

这是对数据的再处理以便保存到数据库。同样在pipeline.py中定义另一个Pipeline，我们实现另一个MongoPipeline如下

class MongoPipeline(object):
    
     def __init__(self, mongo_uri,mongo_db):
         self.mongo_uri=mongo_uri
         self.mongo_db=mongo_db

     @classmethod
     def from_crawler(cls,crawler):
         return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DB')
        )
     def open_spider(self,spider):
        self.client=pymongo.MongoClient(self.mongo_uri)
        self.db=self.client[self.mongo_db]

     def process_item(self,item,spider):
        name=item.__class__.__name__
        self.db[name].insert(dict(item))
        return item
     def close_spider(self,spider):
        self.client.close()

我们还要在setting.py中配置内容

ITEM_PIPELINES={
    'Tanzhou.pipelines.TextPipeline':300,
    'Tanzhou.pipelines.MongoPipeline':400,
}
MONGO_URI='localhost'
MONGO_DB='TanzhouW'

还要启动mongodb数据库，在执行爬取运行命令 scrapy crawl Tanzhous 爬取结束后MongoDB中创建了一个数据库如下

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：总结1

下一篇：Python--网络编程

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签