志在指尖
用双手敲打未来

scrapy(scrapy框架的工作流程)

scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。scrapy

scrapy框架的工作流程

学习方针:
了解scrapy的概念
了解scrapy结构的效果
把握scrapy结构的运转流程
把握scrapy中每个模块的效果
1.scrapy的概念
Scrapy是一个Python编写的开源网络爬虫结构。它是一个被设计用于爬取网络数据、提取结构性数据的结构。
Scrapy使用了Twisted[‘tw?st?d]异步网络结构,能够加快我们的下载速度。
Scrapy文档地址:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html
2.scrapy结构的效果
少量的代码,就能够快速的抓取
3.scrapy的作业流程
3.1回顾之前的爬虫流程
3.2上面的流程能够改写为
3.3scrapy的流程
其流程能够描述如下:
爬虫中开始的url构形成request目标–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送恳求,获取response呼应—->下载中间件—->引擎—>爬虫中间件—>爬虫
爬虫提取url地址,组装成request目标—->爬虫中间件—>引擎—>调度器,重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据
留意:
图中中文是为了便利理解后加上去的
图中绿色线条的表明数据的传递
留意图中中间件的方位,决定了其效果
留意其间引擎的方位,所有的模块之前相互独立,只和引擎进行交互
3.4scrapy的三个内置目标
request恳求目标:由urlmethodpost_dataheaders等构成
response呼应目标:由urlbodystatusheaders等构成
item数据目标:本质是个字典
3.5scrapy中每个模块的详细效果
留意:
爬虫中间件和下载中间件仅仅运转逻辑的方位不同,效果是重复的:如替换UA等
小结
scrapy的概念:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的使用结构
scrapy结构的运转流程以及数据传递进程:
爬虫中开始的url构形成request目标–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送恳求,获取response呼应—->下载中间件—->引擎—>爬虫中间件—>爬虫
爬虫提取url地址,组装成request目标—->爬虫中间件—>引擎—>调度器,重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据
scrapy结构的效果:经过少量代码完成快速抓取
把握scrapy中每个模块的效果:引擎(engine):负责数据和信号在不腰痛模块间的传递调度器(scheduler):完成一个队列,寄存引擎发过来的request恳求目标下载器(downloader):发送引擎发过来的request恳求,获取呼应,并将呼应交给引擎爬虫(spider):处理引擎发过来的response,提取数据,提取url,并交给引擎管道(pipeline):处理引擎传递过来的数据,比方存储下载中间件(downloadermiddleware):能够自定义的下载扩展,比方设置署理ip爬虫中间件(spidermiddleware):能够自定义request恳求和进行response过滤,与下载中间件效果重复

未经允许不得转载:IT技术网站 » scrapy(scrapy框架的工作流程)
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

志在指尖 用双手敲打未来

登录/注册IT技术大全

热门IT技术

C#基础入门   SQL server数据库   系统SEO学习教程   WordPress小技巧   WordPress插件   脚本与源码下载