scrapy(scrapy框架的工作流程)-IT技术网站

scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

scrapy框架的工作流程

学习方针：
了解scrapy的概念
了解scrapy结构的效果
把握scrapy结构的运转流程
把握scrapy中每个模块的效果
1.scrapy的概念
Scrapy是一个Python编写的开源网络爬虫结构。它是一个被设计用于爬取网络数据、提取结构性数据的结构。
Scrapy使用了Twisted[‘tw?st?d]异步网络结构，能够加快我们的下载速度。
Scrapy文档地址：http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html
2.scrapy结构的效果
少量的代码，就能够快速的抓取
3.scrapy的作业流程
3.1回顾之前的爬虫流程
3.2上面的流程能够改写为
3.3scrapy的流程
其流程能够描述如下：
爬虫中开始的url构形成request目标–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送恳求，获取response呼应—->下载中间件—->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request目标—->爬虫中间件—>引擎—>调度器，重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据
留意：
图中中文是为了便利理解后加上去的
图中绿色线条的表明数据的传递
留意图中中间件的方位，决定了其效果
留意其间引擎的方位，所有的模块之前相互独立，只和引擎进行交互
3.4scrapy的三个内置目标
request恳求目标：由urlmethodpost_dataheaders等构成
response呼应目标：由urlbodystatusheaders等构成
item数据目标：本质是个字典
3.5scrapy中每个模块的详细效果
留意：
爬虫中间件和下载中间件仅仅运转逻辑的方位不同，效果是重复的：如替换UA等
小结
scrapy的概念：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的使用结构
scrapy结构的运转流程以及数据传递进程：
爬虫中开始的url构形成request目标–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送恳求，获取response呼应—->下载中间件—->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request目标—->爬虫中间件—>引擎—>调度器，重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据
scrapy结构的效果：经过少量代码完成快速抓取
把握scrapy中每个模块的效果：引擎(engine)：负责数据和信号在不腰痛模块间的传递调度器(scheduler)：完成一个队列，寄存引擎发过来的request恳求目标下载器(downloader)：发送引擎发过来的request恳求，获取呼应，并将呼应交给引擎爬虫(spider)：处理引擎发过来的response，提取数据，提取url，并交给引擎管道(pipeline)：处理引擎传递过来的数据，比方存储下载中间件(downloadermiddleware)：能够自定义的下载扩展，比方设置署理ip爬虫中间件(spidermiddleware)：能够自定义request恳求和进行response过滤，与下载中间件效果重复